《AI靠什么超越人类修图师?万字长文看懂美图云修AI修图解决方案.docx》由会员分享,可在线阅读,更多相关《AI靠什么超越人类修图师?万字长文看懂美图云修AI修图解决方案.docx(25页珍藏版)》请在第一文库网上搜索。
1、A1靠什么超越人类修图师?万字长文看懂“美图云修”A1修图解决方案近日,美图推出了全新的人工智能修图解决方案一一美图云修,本文将从技术角度深入解读该方案,目前用户也可通过美图AI开放平台进行体验。商业摄影的工作流程中非常重要的一项是后期修图,它工作量大、周期长,同时,培养一名!下笔如有神的修图师往往需要付出高昂的人力和物力成本,即便是熟练的修图师也需要1-3个月的时间熟悉和适应不同影楼的修图风格和手法。除此之外,修图师的专业水平不同,审美差异、工作状态好坏等因素都会造成修图质量波动。针对以上痛点,基于美图成立12年来在人物影像领域积累的技术优势,美图技术中枢一一美图影像实验室(MT1ab)推出
2、美图云修人工智能修图解决方案。修图过程中,AI技术在实现多场景的自适应识别调参,呈现完美光影效果的同时,还能够快速定位人像,修复人像瑕疵,实现人像的个性化修图。图1.美图云修人像精修对比接下来,本文将重点分析美图云修人工智能修图解决方案的技术细节。智能中性灰技术在修图中经常提到中性灰修图,也称“加深减淡”操作,通过画笔来改变局部的深浅,在PS中需要手动建立一个观察图层,用以凸显脸部瑕疵,如斑点、毛孔、痘印等,然后在观察图层中逐一选取瑕疵区域对原人脸对应瑕疵区域进行祛除,在此之后对肤色不均匀的地方抹匀,最大限度地保留皮肤质感,但不少情况下仍需借助磨皮方法让肤色均匀,但磨皮会丢失皮肤质感。对每张人
3、像图的皮肤区域重复该过程,可谓耗时耗力。传统PS中性灰的修图过程如图2所示。图2.PS中性灰修图图层(左:原图,中:观察组,右:图层)美图云修的智能中性灰人像精修功能结合了自注意力模块和多尺度特征聚合训练神经网络,进行极致特征细节提取,智能中性灰精修方案使没有专业修图技术的人也可以对人像进行快速精修,在速度方面远超人工修图方式,并且保持了资深人工修图在效果上自然、精细的优点,在各种复杂场景都有较强的鲁棒性,极大地提升了人像后期处理的工作效率。如图3所示,为智能中性灰修图效果,无需手动操作,相比于目前各个app上的修图效果,如图4所示,有着更好的祛除瑕疵效果,并保留皮肤质感,不会有假面磨皮感。图
4、3.美图云修AI中性灰精修效果对比图4.友商祛斑祛痘及磨皮效果(左:祛斑祛痘,右:磨皮)AI中性灰精修功能采用创新的深度学习结构,如图5所示,在网络编码器到解码器的连接部分加入双重自注意力特征筛选模块和多尺度特征聚合模块,让网络可以学习丰富的多尺度上下文特征信息,并对重要信息附加权重,让图像在高分辨率的细节得以保留,同时更好地修复问题肤质。图5.智能中性灰精修网络结构双重自注意力特征筛选模块双重自注意力特征筛选模块1是对特征图的空间映射和通道映射进行学习,分为基于位置的自注意力模块和基于通道的自注意力模块,最后通过整合两个模块的输出来得到更好的特征表达,如图6所示。图6.双重自注意力模块结构基
5、于位置的自注意力模块用于获悉特征图中的任意两个像素的空间依赖,对于某个特殊的肤质特征,会被所有位置上的特征加权,并随着网络训练而更新权重。任意两个具有相似肤质特征的位置可以相互贡表示7x7卷积,Cat表示通道合并。最后,将空间权重系数M_S对特征图F进行重新校准,即两者相乘,就可以得到空间加权后的新肤质特征图。基于通道的自注意力模块主要关注什么样的通道特征是有意义的,并把那些比较有意义的特征图通道通过加权进行突出体现。高层特征的通道都可以看作是特定于肤质细节信息的响应,通过学习通道之间的相互依赖关系,可以强调相互依赖的特征映射,从而丰富特定语义的特征表示。如图6右边红色区域所示,输入与基于位置
6、的肤质细节筛选,能够最大程度地保留人像肤质细节,对于各类复杂场景都具有更好的鲁棒性;其次,相较于人工中性灰修图,本方法能够保证稳定的修图效果,同时极大缩短处理时间,从而提升影楼图像后期处理的效率。智能调色技术常见修图所涉及的调色技术主要包括去雾,光照调整和背景增强等,其中光照调整涉及过曝修复和欠曝增强。其中,去雾主要用于保持图像的清晰度和对比度,使图像从视觉感观上不会存在明显雾感;曝光主要用于改善图像的光影效果,保证成像光影质量,使得相片能够呈现完美光影效果;而智能白平衡则是能够还原图像的真实色彩,保证图像最终成像不受复杂光源影响。调色涉及的技术较多,此处以白平衡智能调整技术为例,详细介绍AI
7、技术调色流程。目前常用白平衡算法进行色偏校正,存在以下难点:传统白平衡算法虽然能够校正色偏,但是鲁棒性不足,无法应对实际需求中的复杂场景,往往需要设置不同的参数进行调整,操作繁琐。目前主流的色偏校正方案大多数是基于卷积神经网络,而常规的卷积神经网络结构并不能彻底校正色偏,这些方案对于与低色温光源相近的颜色,比如木头的颜色,会存在将其误判为低色温光源的现象。大多数数码相机提供了在图像菜鸡过程中调整白平衡设置的选项。但是,一旦选择了白平衡设置并且ISP将图像完全处理为最终的SRGB编码,就很难在不访问RAW图像的情况下执行WB编辑,如果白平衡设置错误,此问题将变得更加困难,从而导致最终SRGB图像
8、中出现强烈的偏色。美图影像实验室MT1ab自主研发了一套专门能够适应多场景复杂光源下的智能调色技术。传统白平衡算法的核心是通过实时统计信息,比照传感器的先验信息,计算出当前场景的光源,通过传感器先验信息做白平衡,这种方法仍然有很多局限。MT1ab提出的智能白平衡方案(AWBGAN),依靠海量场景的无色偏真实数据,能够实现自适应的光源估计,完成端到端的一站式调色服务。AWBGAN满足以下2个特点:全面性:多场景多光源,涵盖常见场景进行多样化处理鲁棒性:不会存在场景以及光源误判问题,色偏校正后不会造成二次色偏当前的主流算法主要是集中在SRGB颜色域上进行色偏校正,但是这样处理并不合理。因为相机传感
9、器在获取原始的RAW图像再到最终输出sRGB图像,中间经过一系列的线性以及非线性映射处理,例如曝光校正,白平衡以及去噪等处理流程。ISP渲染从白平衡过程开始,该过程用于消除场景照明的偏色。然后,ISP进行了一系列的非线性颜色处理,以增强最终sRGB图像的视觉质量。由于ISP的非线性渲染,使用不正确的白平衡渲染的sRGB图像无法轻松校正。为此MT1ab设计了AWBGAN训练学习网络来完成色偏校正。针对一张待校正色偏的图像,首先需要使用已经训练好的场景分类模型进行场景判定,获得校正系数,该校正系数将会用于AWBGAN的校正结果,能在校正结果的基础上进行动态调整。对于高分辨率图像如果直接进行色偏校正
10、处理,耗时高。为了提高计算效率,MT1ab会将待校正色偏图像采样到一定尺度再进行校正操作,最后再将结果使用金字塔操作逆向回原图尺寸。完整的校正流程如图8所示。图8.色偏校正方案整体流程生成网络的设计上文中提到在SRGB图像上直接进行处理并没有在Raw图上处理效果好,因此生成器采用类U-Net网络结构模拟SRGB到RAW再转换回sRGB的非线性映射过程,其中编码器将sRGB逆向还原回RAW图并进行RAW图上的色偏校正,在完成正确的白平衡设置后,解码器进行解码,生成使用了正确白平衡设置的sRGB图像。整个G网络的目的不是将图像重新渲染会原始的sRGB图,而是在RAW上使用正确的白平衡设置生成无色偏
11、图像。鉴于直接使用原始的U-Net网络生成的图像会存在色彩不均匀的问题,G网络参考U-Net以及自主研发的方案做了一些调整:在编码器与解码器之间加入另外一个分支,使用均值池化代替全连接网络提取图像的全局特征从而解决生成图像存在色块和颜色过度不均匀的问题;使用rangesca1ing1ayer代替residua1s,也就是逐个元素相乘,而不是相加,学习范围缩放层(而不是残差)对于感知图像增强效果非常好;为了减少生成图像的棋盘格伪影,将解码器中的反卷积层替换为一个双线性上采样层和一个卷积层。生成网络结构如图9所示,提取全局特征的网络分支具体结构如图10所示。图9.生成网络结构图图10.全局分支网络
12、结构判别器设计为了能够获得更加逼近真实结果的图像,此处采用了对抗性损失来最小化实际光分布和输出正态光分布之间的距离。但是一个图像级的鉴别器往往不能处理空间变化的图像,例如输入图像是在室内复杂光源场景下获取的,受到室内光源漫反射的影响,每个区域需要校正的程度不同,那么单独使用全局图像判别器往往无法提供所需的自适应能力。为了自适应地校正局部区域色偏,MT1ab采用文献4En1ightenGAN中的D网络。该结构使用PatchGAN进行真假鉴别。判别器包含全局以及局部两个分支,全局分支判断校正图像的真实性,局部分支从输入图像随机剪裁5个patch进行判别,改善局部色偏校正效果。D网络的输入图像与ta
13、rget图像,都会从RGB颜色域转换成1AB颜色域,1ab是基于人对颜色的感觉来设计的,而且与设备无关,能够,使用1ab进行判别能够获得相对稳定的效果。全局-局部判别器网络结构如图11所示。图11.全局-局部判别器1oss函数的设计包括1IIOSs,MS-SSIM1oss,VGG1oss,co1or1ossandGANIoss0其中111oss保证图像的色彩亮度的真实性;MS-SSIM1oss使得生成图像不会丢失细节,保留结构性信息,VGG1oss限制图像感知相似性;co1or1oss分别将增强网络得到image与target先进行高斯模糊,也就是去掉部分的边缘细节纹理部分,剩下的能作为比较的
14、就是对比度以及颜色;GAN1oss确保图像更加真实。这五个1oss相加就构成了AWBGAN的损失函数。最终色偏校正方案的校正效果如图12所示。图12.美图云修智能白平衡结果。(左:色温6500K情况,中:色温2850K情况,右:校正后图像)智能祛除技术修图师在修图过程中,会祛除一些皮肤本身固有的瑕疵,如皱纹、黑眼圈、泪沟等。对于人工智能的后期人像修图来说,皱纹检测有着重要的现实意义:一方面有助于皮肤衰老度的分析,揭示皱纹发生的区域和严重程度,成为评估肤龄的依据;另一方面,则能为图像中的自动化人脸祛皱带来更便捷的体验,即在后期修图的过程中,用户可以利用算法自动快速定位皱纹区域,从而告别繁复的手工
15、液化摸匀的过程。1 .皱纹识别在科研领域中,常用的皱纹检测算法主要有以下几种:基于一般边缘检测的方法:比如常见的Canny算子、1ap1ace算子、DoG算子,但这些算子所检出的边缘实质上是图像中两个灰度值有一定差异的平坦区域之间的分界处,而不是皱纹的凹陷处,故不利于检出具有一定宽度的皱纹;基于纹理提取的方法:有以文献5的HybridHessianFi1ter(HHF)以及文献6的Hessian1ineTracking(H1T)为代表的,基于图像Hessian矩阵的特征值做滤波的方法,可用来提取图像中的线性结构;也有以文献7的GaborFi1terBank为代表的,利用在提取线性纹理的Gabo
16、r滤波的方法。这些方法需要手工设计滤波器,带来了额外的调参代价,而且通常只能检测线状的抬头纹和眼周纹,对于沟状的法令纹的兼容较差,检测结果也容易受到其他皮肤纹理或非皮肤物体的影响;基于3D扫描的方法:如文献8提出的利用3D点云的深度信息映射到2D图像的分析方法,但该方法依赖于额外的采集设备,在算法的普适性上较弱。在自动化人脸祛皱的需求引领下,为了摆脱传统皱纹检测算法的限制,美图影像实验室MT1ab自主研发了一套全脸(含脖子)皱纹检测技术。该技术在覆盖全年龄段的真实人脸皱纹数据的驱动之下,发挥了深度学习表征能力强和兼容性高的优势,实现了端到端的抬头纹、框周纹、法令纹和颈纹的精准分割,成为了自动化祛皱算法的关键一环。由于抬头纹、框周纹、法令纹和颈纹这四类皱纹的类内模式相似性较高而类间模式相似较低,MT1ab采用零件