《针对城市道路的图像语义分割.docx》由会员分享,可在线阅读,更多相关《针对城市道路的图像语义分割.docx(10页珍藏版)》请在第一文库网上搜索。
1、针对城市道路的图像语义分割樊天宇张瑞菊(北京建筑大学,北京102627)摘要城市道路图像的语义分割具有很多的应用场景,如自动驾驶、图片或视频中广告的插入等。这些应用场景都要求分割算法具有较高的精确度,城市道路图像中具有很多尺度大小不一的目标,不同尺度的目标特别是小尺度的目标,会给精细化分割带来更多困难。针对以上问题,提出了一种基于编码器一解码器结构的语义分割网络。使用该模型以改进不同尺度目标边缘的分割精确性。针对城市道路场景的Cityscapes数据集设计相关的对比实验,实验结果证明了所提方法的有效性。关键词图像语义分割;城市道路;深度学习中图分类号U463.6;TP391.41文献标识码A文
2、章编号2096-8949 (2022) 06-0011-03引言图像语义分割一直是计算机视觉领域非常重要的研究方向,伴随着深度学习在计算机视觉中目标识别领域率破纪录,大放光彩,深度学习也在计算机视觉其他子领域应用开来,如目标跟踪、图像去噪、场景重建、图像风格转换。图像语义分割是将像素按照图像中表达语义含义的不同进行分组(Grouping)和分割(Segmentation),在2022年之前,传统方法从“阈值法”逐步发展到基于像素聚类的分割方法,2022年后,基于深度学习的图像语义分割方法开始逐渐应用自动驾驶领域。自动驾驶通过环境感知、自主决策和运动控制等一系列关键技术,实现道路交通部分甚至完全
3、自动化运行,是对传统运输模式和出行方式的一次深刻的变革。现如今,主要发达国家纷纷将其列为下一阶段重要的发展领域。据不完全统计,截至2022年末,我国汽车保有量约为28 087万辆(包括三轮汽车和低速货车748万辆),比上年末增加1 937万辆,是名副其实的汽车大国。然而我国的自动驾驶技术专利虽然申请活跃,但总体的质量偏低,产业核心竞争力也有待提升。在“十三五”国家战略性新兴产业发展规划中指出,要加速电动汽车智能化技术应用创新,发展自动驾驶。自动驾驶系统作为智能驾驶汽车的“心脏”,其主要包括智能交通系统(IntelligentTraffic System, ITS)、先进驾驶辅助系统(Advan
4、ced DriverAssistance System, ADAS)o城市道路图像的语义分割是智能交通系统以及先进辅助驾驶系统中的重要一环,是实现辅助驾驶甚至完全自动化驾驶必不可少的关键技术。目前交通事故主要是人为失误造成的,其主要包括注意力不集中、行为不端等。道路感知和道路图像的语义分割作为先进驾驶辅助系统的基础,在帮助驾驶员避免错误方面起着至关重要的作用。一些成功的自动驾驶辅助系统或汽车企业,如Mobileye,宝马、特斯拉等,都开发了自己的产品,在研究和现实应用方面都取得了显著的成就。目前成熟的自动驾驶方案几乎都采用了基于视觉的技术,例如工业高清摄像头、双目相机等。它相比于激光雷达具有更
5、低的获取成本以及更接近于人眼的感知效果。这是因为在车辆行驶过程中,摄像头采集到的图像数据具有极大的信息量。图像语义分割将图像中每一个像素按照标签进行分类,从而可以从图像中提取出丰富的驾驶环境信息,辅助决策。例如在摄像头采集到的数据中,区分出道路与绿化带,行人与车辆,判定出可行驶区域,区分出道路路面与地面交通标示,判定出道路边缘与车道线。图像语义分割是自动驾驶中的重要环节,通过对摄像头传感器采集到的信息进行特征提取分类,才能获得有利于决策模块进行决策的信息1。在现阶段的自动驾驶技术中,处理好图像中道路路面的关键性信息,将有助于提高车辆行驶决策的准确度。1全卷积神经网络道路图像是自动驾驶中视觉传感
6、器收集到的重要信息,是汽车行驶环境的重要建模依据。在传感器收集到的大量图像信息中,自动驾驶感知模块依据语义信息将图像中不同分类的目标分割开来,帮助决策模块理解场景。随着深度学习在计算机视觉领域大规模应用,卷积神经网络也自然而然地成功应用到语义分割中。目前基于深度学习语义分割模型种类很多,全卷积神经网络是目前最成功的分割模型之一,传统深度神经网络模型中,在分类器前常接一个全连接层,全连接层因为要接受固定大小的输入维度,故当卷积层输出更大维度的特征图时,无法使用全连接层进行处理,对目标尺度变化大的特征难以学习加州大学伯克利分校的Jonathan Long等人提出了全卷积神经网络模型,该模型使用卷积
7、层取代了全连接层,接受任意尺寸的图像信息作为输入,经过多层卷积与池化进行特征抽取和降维操作后,引入反卷积对最后一层卷积层上输出的特征图执行上采样操作,使特征图恢复到与输入图像相同的尺寸,从而对输入图像中每个位置的像素产生一个预测,预测像素属于哪个类别1。全卷积神经网络模型的结构由于池化对每次卷积结果的降维操作,造成图像分辨率降低,当执行到P0015时,图像的分辨率较之输入时已经变得非常低,若从该层执行上采样操作,得到的分割结果也非常粗糙。从该层执行上采样操作后,获得与输入图像一样大小的输出模型,须放大32倍,故称为FCN-32so这样的模型由于缺少大量细节信息,分割效果很差。如果将该层池化后的
8、结果仅上采样并放大两倍,与poo 14层的池化结果相加,得到新的特征图再进行上采样操作,放到16倍得到和输入图像尺寸相同的结果,这该模型称为FCN-16so而FCN网络中效果最好的是FCN-8s,顾名思义,该网络将pool3层的结果与pool4、poo15上采样后的结果相加,将浅层特征与深层特征进行了融合,故分割结果的效果是最好的。2深度图像分割网络针对自动驾驶中的图像语义分割任务,提出了一种基于深度学习的深度图像分割网络。该网络较全卷积神经网络,做了很多改进,吸取了全卷积神经网络中的思想,例如跨层融合、上采样等,也针对该网络采用池化降维导致图像像素丢失的缺点进行了改进。网络整体结构使用了 3
9、个残差模块、3个非对称分离卷积模块、1个空洞卷积层、3个反卷积层和1个softmax分类层。网络整体采用对称结构设计,左半部分为编码网络(Encoder),右半部分为解码网络。在编码网络,使用残差模块,不断提取图像特征,在这个过程中,不使用池化操作,执行三次残差模块操作后,对特征图进行空洞卷积获得尺寸最小的特征图。每个卷积层操作采用ReLU激活函数,每个卷积层后有批归一化层,防止学习过程中,误差梯度弥散或爆炸。在解码网络中,深度网络将空洞卷积层获得的特征图,经过反卷积操作,不断进行上采样,将图像尺寸恢复到输入时大小。借用FCN网络中特征融合思想,将编码网络和解码网络进行特征融合,由于编码网络中
10、,浅层抽取的特征较为丰富,合理利用浅层信息能有效提高图像分割时精度。解码过程中,反卷积进行2倍上采样后的特征图,与对应位置处编码网络残差模块处理结果进行融合,利用浅层网络的特征。编码网络残差模块使用非对称分离卷积模块进行降维操作,使两者的特征图具有相同维数2。2.1 残差网络深度神经网络层数越多,提取的特征也就越丰富,但如果简单地增加深度,会使学习过程中误差函数传播出现梯度弥散或者梯度爆炸,即准确率先随着深度的增加而提高,随后又减低的过程。何凯明将深度神经网络中接收到的信息通过短连接传递到后面的层中,有效地解决了深度网络难以训练的问题。在深度图像分割网络中,采样残差结构提取特征,既能保证网络深
11、度来获取更多的特征,还能避免网络过拟合,降低训练难度。残差网络在设计时,当输入和输出维度不一致时,需要给输入的特征图执行一个线性映射来匹配维度,如下式:文中采用大小为1X1,步长为2的卷积核来执行映射。2.2 空洞卷积编码网络中,对最后一个残差抽取的特征图执行空洞卷积来取代池化操作。在传统的卷积神经网络中,池化操作虽然能够降维,但会使特征图上的像素尺度较低产生信息丢失,这样经过上采样会降低分割精度。空洞卷积是一种通过增加感受野范围的卷积方式,采用下式计算特征图的空洞卷积结果,i为像素索引,r为孔的比例。随着孔比例增加,空洞卷积感受野的范围也随之增加,但参数数量并未增加。空洞卷积在普通卷积核中插
12、入孔来达到增加感受野面积的目的,将一个原本感受野大小为3X3的卷积核变为了 7X7,并且没有增加训练参数。2.3 非对称卷积解码网络中非对称卷积模块将残差模块输出的特征图降维到与反卷积上采样后的得到的特征图一样的维度。非对称卷积最早出现在InceptionV3深度网络中,Inception系列网络是使用不同大小的卷积核对输入的图像进行卷积,然后将结果融合。广泛地使用的Inception模型中,通过1义1, 3X3, 5义5等不同大小的卷积核采用depthconcat方式连接,这样一方面增加了单层网络的宽度,同时也保留了不同尺度下的输入信息特征,增加了深度神经网络对尺度的适应性。非对称卷积是在I
13、nception网络中,使用1XN和NX1大小的卷积核,取代NXN大小的卷积核。这种运算下,二者的卷积结果是一致的,但通过非对称卷积,有效地减少了运算量,减少了卷积核参数。2.4 反置卷积在解码网络中,使用反卷积进行上采样操作。反卷积也称转置卷积,实质上依然是卷积操作,只是将输入图像进行填边或在像素间填零后,进行卷积操作。2.5 5批归一化层在深层神经网络的应用中,深度网络的训练一直是难以攻克的难题。当使用梯度下降算法反向传播误差时,经常出现梯度消失和梯度爆炸现象,是因为误差在传播过程中,由于多层神经网络的级联,参数微小的变化会将计算结果在层间传递中不断地放大或缩小。因此,需要将数值在不同层间
14、传递时,维系在一个合理范围内。归一化则是机器学习中常见的数据预处理操作,数据的不同特征或维度中具有不同的量纲和量纲单位,其差异会影响到机器学习的效果,为消除不同特征间的量纲差异,常常对特征进行归一化处理,让不同的特征处于同一个数量级中。而批归一化层则是对神经网络层间数据进行归一化处理。2.6 6损失函数针对图像语义分割任务,模型的优化目标函数选择交叉病代价函数。深度神经网络最后输出的是W*H*C维的张量,用C维向量表征原图上每一个像素属于的分类。在训练中,使用One-HotEncoding的编码方式将训练集中的像素的分类表征为一个只由。和1构成的C维向量。深度神经网络输出的C维向量表征此处像素
15、属于C个分类的概率。当输出与期望结果无限接近时,交叉病损失函数无限接近于0。2.7 Cityscapes 数据集Citysacpes数据集是自动驾驶领域权威数据集之一,该数据集专注于城市街道场景下的图像分割,其采集了德国境内的50个城市的街道在春、夏、秋三个季节中的照片,数据均在天气条件好的白天下采集,分辨率为1 024 dpi2 048 dpio对其中5 000张照片进行了细标注,20000张照片进行了粗标注。2022年,图森在Citysacpes公开数据集测试上获得世界第一。Cityscapes数据集在城市道路图像上分割出30个分类,数据集中每个像素属于某个分类,这30个分类被分为8组,并被标注不同的颜色。在Cityscapes的benchmark上,只采用19个种类进行模型性能评价。Citysacpes数据集和PASCAL V0C数据集一样使用intersection-over-union (IoU)作为性能评估的指标。在深度神经网络计算出的分割结果中,某一分类的像素集合记作P,原始图像中属于该分