CVPRNTIRE比赛双冠网易互娱AILab是这样做的.docx

资源描述

《CVPRNTIRE比赛双冠网易互娱AILab是这样做的.docx》由会员分享，可在线阅读，更多相关《CVPRNTIRE比赛双冠网易互娱AILab是这样做的.docx（8页珍藏版）》请在第一文库网上搜索。

1、CVPRNTIRE比赛双冠,网易互娱AI1ab是这样做的近日网易互娱AI1ab获得第七届NTIREHDR比赛的全部两个赛道的冠军。网易互娱AI1ab一直致力于利用AI提升美术生产效率，助力游戏贴图资源自动升级，目前相关技术已应用于贴图、U1等游戏资源的精度和细节的提升，为多个游戏提供技术支持。本文将详细解读他们的双冠比赛方案。近日，图像修复领域最具影响力的国际顶级赛事NewTrendsinImageRestorationandEnhancement(NTIRE)结果出炉，网易互娱AI1ab包揽了高动态范围成像(HDR)任务全部2项冠军。NTIRE比赛每年举办一次，目前已是第七届，主要聚焦图像修

2、复和增强技术，代表相关领域的趋势和发展，吸引了众多来自工业界、学术界的关注者和参赛者，有着非常大的影响力。今年NTIRE比赛在计算机视觉领域的顶级会议CVPR2023(ComputerVisionandPatternRecognition)上举办。高动态范围成像(HDR)任务的赛道1和赛道2分别有197个队伍、168个队伍报名参加，吸引了包括腾讯、头条、旷视、蚂蚁、快手在内的工业界队伍，以及清华大学、中科院、中国科学技术大学、爱丁堡大学、帝国理工等国内外高校。网易互娱AI1ab从众多的强队中脱颖而出，斩获该任务的全部2项冠军。这是网易互娱AI1ab夺得多项国际冠军后，再次登顶国际AI竞赛，展现

3、了网易互娱AI1ab在人工智能领域的综合实力。任务描述消费级的单传感器相机在拍摄照明情况复杂的场景时，难以用一种曝光参数拍摄出曝光正常的照片。由于成像传感器固有的局限性，譬如在高亮度区域因为过曝让画面呈现白色，从而导致这些区域细节的丢失。针对这个问题的解决方法是采用一个扩展的高动态范围(HDR)记录图片，具体做法是在拍摄时分辨拍摄多张不同曝光参数的低动态范围(1DR)图片，然后通过算法把多张图片融合成一张HDR图片。此次比赛的目标是探索高效的HDR模型和技术方案，以达到实用化的使用需求。总计两个赛道：(1)保真度赛道：在限定模型计算量(小于200GGMACs)的基础上，尽可能取得更高的保真度，

4、评价指标是PSNR-；(2)低复杂度赛道：在超过基线模型指标(PSNR与PSNR）的基础上，尽可能取得更低的计算量和更少的耗时，评价指标是GMACso数据集介绍本次比赛用的数据集包含1500个训练样本、60个验证样本以及201个测试样本，每个样本包括三张1DR图片输入，分别对应短、中、长三种曝光水平，以及一个和中曝光对齐的HDR图片，数据集是由Froeh1ich等人收集的，他们捕捉了各种各样的具有挑战性场景的HDR视频。之前基于深度学习的HDR模型取得了不错的效果,譬如AHDRNet.ADNet等，但缺点是计算量非常大，以官方提供的基线方法AHDRNet为例，计算量在3000GMACs左右。因

5、此本次比赛的目的是寻求高效的多帧HDR重建方法。方法概述由于任务的两个赛道均要求训练高效的HDR模型，网易互娱AI1ab凭借以往对1ow-1eve1视觉任务和轻量化网络设计的经验积累，在基线模型的基础上，提出了一个EfficientHDR网络，包括高效的多帧对齐和特征提取模块两个模块，同时优化了模型的训练方法。(1)在多帧对齐模块，采用Pixe1Unshuff1e操作在增大感受野的同时减少了特征图的大小，大幅减少了后续的计算量。同时，采用深度可分离卷积替代对齐模块中的普通卷积，大幅提高运算效率。(2)在特征提取模块，采用深度可分离卷积替代普通卷积，Si1U激活函数替代Re1U,设计了一个高效残

6、差特征蒸储模块(EffiCientRFDB)o另外，探索了网络深度与通道数目之间的关系，在限定计算量下层数更深且通道数少的特征提取网络，可以获得更高的评价指标。(3)在训练方法上,在常规的128x128图片输入1I1oss训练后，采用了256x256更大尺寸输入+121oss进行训练调优。最后，使用基于SwinIR搭建的TranSformer模型作为TeaCher模型，对前述CNN模型进行蒸储，结合CNN和Transformer各自的优势进一步提升模型效果。网络结构网络的整体结构基于官方提供的base1ine模型AHDRNet进一步大幅改进和优化，主要可以分成三个部分：多帧对齐模块、特征提取模

7、块和图像重建模块。基于本次比赛的计算量目标考虑，对网络部分做了以下设计：1 .Pixe1Shuff1e层：在多帧对齐模块中使用Pixe1Unshuff1e操作（Pixe1Shuff1e的逆操作），在不增加计算量的同时增大了感受野。在图像重建模块中使用Pixe1Shuff1e替代AHDRNet中的卷积操作，节省计算量。2 .深度可分离卷积：在多帧对齐模块和特征提取模块，采用Depthwise+1X1卷积的组合替换了网络中的绝大多数卷积。3 .特征提取基础模块替换：在特征提取模块采用RFDBESA替换AHDRNet中的DRDB,并采用Si1U激活函数替换Re1Uo4 .深度vs宽度：在限定计算量下

8、，平衡特征提取模块深度和宽度取得更好的效果。以Track1的约束为标准，所有模型的计算量都在190G200G之间（即更深的网络意味着更少的通道数）。整体的网络结构图如图2所示，EfficientRFDB的结构图如图3所示：网络结构图EfficientRFDB结构图最后提交的Track1和Track2模型均采用了上述的模型结构，区别是使用EfficientRFDB层数和通道数有所不同，对Track1,EfficientRFDB层数和通道数目较多，计算量是198.47GMACs。对Track2,EfficientRFDB层数相近，通道数更少，计算量是74.02GMACso训练过程目前HDR的论文或

9、比赛的主要评价指标是PSNR-,指先对输出图片和标签图片分别做色调映射tonemapping操作再计算其PSNR：其中,是指tonemapping操作。对图像做了以下处理:其中,主流的方法是对色调映射后的图片求111oss,譬如去年NTIRE比赛的多帧HDR比赛冠军ADNet是使用tonem叩Ped后的图片损失函数，即：该研究训练过程第一步同上使用111oss,并在此基础上加了后续三个finetune的过程，按顺序分别是:1 .121ossfinetune：为了获得更高的评价指标，在微调阶段该研究采用了和PSNR计算一致的121oss代替111oss：2 .大尺寸图片+121ossfinetu

10、ne：由于最后用了深层的网络设计，网络具有更大的感受野，采用256x256替代128x128的大尺寸图片进行微调可以让模型取得更好的效果。3 .知识蒸储+大尺寸+121ossfinetune：使用基于Transformer的SwinIR中的RSTB代替EfficientRFDB搭建TeaCher网络，此阶段损失函数如下：其中，TS表示TeacherSurpervision,DS表示DataSupervision,最后在实验中实验结果赛道1中，网易互娱AI1ab（A1ONG）提出的方法在PSNR-U和PSNR上均是第一。如表1所示，主要评价指标PSNRR比第二名高出了0.172,而第二到第四的PSNR-II差距仅为0.089,相比第五名之后的队伍更是拉开了0.45以上的差距。赛道2中，网易互娱AI1ab（A1ONG）提出的方法取得了最低的计算量（GMACS）和最少的参数量（Param）。如表2所示，在超过基线方法PSNR和PSNR-U的基础上，减少了约40倍的计算量。相比第二名和第三名有较大领先，仅使用了约一半的计算量。表1：赛道1（保真度赛道）结果排名表2：赛道2（低复杂度赛道）结果排名

展开阅读全文