《CVPRNTIRE比赛双冠网易互娱AILab是这样做的.docx》由会员分享,可在线阅读,更多相关《CVPRNTIRE比赛双冠网易互娱AILab是这样做的.docx(8页珍藏版)》请在第一文库网上搜索。
1、CVPRNTIRE比赛双冠,网易互娱AI1ab是这样做的近日网易互娱AI1ab获得第七届NTIREHDR比赛的全部两个赛道的冠军。网易互娱AI1ab一直致力于利用AI提升美术生产效率,助力游戏贴图资源自动升级,目前相关技术已应用于贴图、U1等游戏资源的精度和细节的提升,为多个游戏提供技术支持。本文将详细解读他们的双冠比赛方案。近日,图像修复领域最具影响力的国际顶级赛事NewTrendsinImageRestorationandEnhancement(NTIRE)结果出炉,网易互娱AI1ab包揽了高动态范围成像(HDR)任务全部2项冠军。NTIRE比赛每年举办一次,目前已是第七届,主要聚焦图像修
2、复和增强技术,代表相关领域的趋势和发展,吸引了众多来自工业界、学术界的关注者和参赛者,有着非常大的影响力。今年NTIRE比赛在计算机视觉领域的顶级会议CVPR2023(ComputerVisionandPatternRecognition)上举办。高动态范围成像(HDR)任务的赛道1和赛道2分别有197个队伍、168个队伍报名参加,吸引了包括腾讯、头条、旷视、蚂蚁、快手在内的工业界队伍,以及清华大学、中科院、中国科学技术大学、爱丁堡大学、帝国理工等国内外高校。网易互娱AI1ab从众多的强队中脱颖而出,斩获该任务的全部2项冠军。这是网易互娱AI1ab夺得多项国际冠军后,再次登顶国际AI竞赛,展现
3、了网易互娱AI1ab在人工智能领域的综合实力。任务描述消费级的单传感器相机在拍摄照明情况复杂的场景时,难以用一种曝光参数拍摄出曝光正常的照片。由于成像传感器固有的局限性,譬如在高亮度区域因为过曝让画面呈现白色,从而导致这些区域细节的丢失。针对这个问题的解决方法是采用一个扩展的高动态范围(HDR)记录图片,具体做法是在拍摄时分辨拍摄多张不同曝光参数的低动态范围(1DR)图片,然后通过算法把多张图片融合成一张HDR图片。此次比赛的目标是探索高效的HDR模型和技术方案,以达到实用化的使用需求。总计两个赛道:(1)保真度赛道:在限定模型计算量(小于200GGMACs)的基础上,尽可能取得更高的保真度,
4、评价指标是PSNR-;(2)低复杂度赛道:在超过基线模型指标(PSNR与PSNR)的基础上,尽可能取得更低的计算量和更少的耗时,评价指标是GMACso数据集介绍本次比赛用的数据集包含1500个训练样本、60个验证样本以及201个测试样本,每个样本包括三张1DR图片输入,分别对应短、中、长三种曝光水平,以及一个和中曝光对齐的HDR图片,数据集是由Froeh1ich等人收集的,他们捕捉了各种各样的具有挑战性场景的HDR视频。之前基于深度学习的HDR模型取得了不错的效果,譬如AHDRNet.ADNet等,但缺点是计算量非常大,以官方提供的基线方法AHDRNet为例,计算量在3000GMACs左右。因
5、此本次比赛的目的是寻求高效的多帧HDR重建方法。方法概述由于任务的两个赛道均要求训练高效的HDR模型,网易互娱AI1ab凭借以往对1ow-1eve1视觉任务和轻量化网络设计的经验积累,在基线模型的基础上,提出了一个EfficientHDR网络,包括高效的多帧对齐和特征提取模块两个模块,同时优化了模型的训练方法。(1)在多帧对齐模块,采用Pixe1Unshuff1e操作在增大感受野的同时减少了特征图的大小,大幅减少了后续的计算量。同时,采用深度可分离卷积替代对齐模块中的普通卷积,大幅提高运算效率。(2)在特征提取模块,采用深度可分离卷积替代普通卷积,Si1U激活函数替代Re1U,设计了一个高效残
6、差特征蒸储模块(EffiCientRFDB)o另外,探索了网络深度与通道数目之间的关系,在限定计算量下层数更深且通道数少的特征提取网络,可以获得更高的评价指标。(3)在训练方法上,在常规的128x128图片输入1I1oss训练后,采用了256x256更大尺寸输入+121oss进行训练调优。最后,使用基于SwinIR搭建的TranSformer模型作为TeaCher模型,对前述CNN模型进行蒸储,结合CNN和Transformer各自的优势进一步提升模型效果。网络结构网络的整体结构基于官方提供的base1ine模型AHDRNet进一步大幅改进和优化,主要可以分成三个部分:多帧对齐模块、特征提取模
7、块和图像重建模块。基于本次比赛的计算量目标考虑,对网络部分做了以下设计:1 .Pixe1Shuff1e层:在多帧对齐模块中使用Pixe1Unshuff1e操作(Pixe1Shuff1e的逆操作),在不增加计算量的同时增大了感受野。在图像重建模块中使用Pixe1Shuff1e替代AHDRNet中的卷积操作,节省计算量。2 .深度可分离卷积:在多帧对齐模块和特征提取模块,采用Depthwise+1X1卷积的组合替换了网络中的绝大多数卷积。3 .特征提取基础模块替换:在特征提取模块采用RFDBESA替换AHDRNet中的DRDB,并采用Si1U激活函数替换Re1Uo4 .深度vs宽度:在限定计算量下
8、,平衡特征提取模块深度和宽度取得更好的效果。以Track1的约束为标准,所有模型的计算量都在190G200G之间(即更深的网络意味着更少的通道数)。整体的网络结构图如图2所示,EfficientRFDB的结构图如图3所示:网络结构图EfficientRFDB结构图最后提交的Track1和Track2模型均采用了上述的模型结构,区别是使用EfficientRFDB层数和通道数有所不同,对Track1,EfficientRFDB层数和通道数目较多,计算量是198.47GMACs。对Track2,EfficientRFDB层数相近,通道数更少,计算量是74.02GMACso训练过程目前HDR的论文或
9、比赛的主要评价指标是PSNR-,指先对输出图片和标签图片分别做色调映射tonemapping操作再计算其PSNR:其中,是指tonemapping操作。对图像做了以下处理:其中,主流的方法是对色调映射后的图片求111oss,譬如去年NTIRE比赛的多帧HDR比赛冠军ADNet是使用tonem叩Ped后的图片损失函数,即:该研究训练过程第一步同上使用111oss,并在此基础上加了后续三个finetune的过程,按顺序分别是:1 .121ossfinetune:为了获得更高的评价指标,在微调阶段该研究采用了和PSNR计算一致的121oss代替111oss:2 .大尺寸图片+121ossfinetu
10、ne:由于最后用了深层的网络设计,网络具有更大的感受野,采用256x256替代128x128的大尺寸图片进行微调可以让模型取得更好的效果。3 .知识蒸储+大尺寸+121ossfinetune:使用基于Transformer的SwinIR中的RSTB代替EfficientRFDB搭建TeaCher网络,此阶段损失函数如下:其中,TS表示TeacherSurpervision,DS表示DataSupervision,最后在实验中实验结果赛道1中,网易互娱AI1ab(A1ONG)提出的方法在PSNR-U和PSNR上均是第一。如表1所示,主要评价指标PSNRR比第二名高出了0.172,而第二到第四的PSNR-II差距仅为0.089,相比第五名之后的队伍更是拉开了0.45以上的差距。赛道2中,网易互娱AI1ab(A1ONG)提出的方法取得了最低的计算量(GMACS)和最少的参数量(Param)。如表2所示,在超过基线方法PSNR和PSNR-U的基础上,减少了约40倍的计算量。相比第二名和第三名有较大领先,仅使用了约一半的计算量。表1:赛道1(保真度赛道)结果排名表2:赛道2(低复杂度赛道)结果排名