为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx

上传人:lao****ou 文档编号:875221 上传时间:2024-07-08 格式:DOCX 页数:6 大小:39.77KB
下载 相关 举报
为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx_第1页
第1页 / 共6页
为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx_第2页
第2页 / 共6页
为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx_第3页
第3页 / 共6页
为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx_第4页
第4页 / 共6页
为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx》由会员分享,可在线阅读,更多相关《为了发挥FPGA硬件实现的速度优势 算法进行优化是必须要做的.docx(6页珍藏版)》请在第一文库网上搜索。

1、为了发挥FPGA硬件实现的速度优势算法进行优化是必须要做的NoPP,NoWAYw这是个眼见为实的世界,这是个视觉构成的信息洪流的世界。大脑处理视觉内容的速度比文字内容快6万倍,而随着智能手机的普及,图片、视频的产生和分享已经是人们在社交平台上的基本交流方式。用户通过手机、平板、电脑上传和分享自己的图片,而且这个趋势是每年都在增长(参见图1)O图12016年KPCB统计报告每天QQ相册、微信朋友圈上,用户上传的图片数量有上亿张,这些图片被后台服务器存储下来,再通过网络分发出去。如果每张图片可以进行压缩,使得图片存储和传输分发的数据量越少,既节省了用户带宽,也提高了用户工B图片的速度,用户体验更好

2、。那么图片是可以进行压缩的么?1948年,信息论学说的奠基人香农曾经论证:不论是语音或者图片,由于其信号中包含很多的冗余信息,所以可以对其进行压缩。图像压缩篁法有:JPEG、WEBP、H264(帧内压缩)、HEVC(帧内压缩),压缩能力是:JPEGWEBP/H264(帧内压缩)HEVC(帧内压缩),这个压缩能力是通过计算复杂度的提高来实现,其中WEBP、HEVC的计算复杂度是JPEG压缩的10倍以上。目前在社交平台上用户上传的大量图片是JPEG格式,通过后台服务器用更加复杂的算法如WEBPHEVC(帧内压缩),进一步压缩以节省存储和带宽,所以对图像的压缩,从本质上是通过提高计算算力来降低存储和

3、带宽。同时更加复杂的算法也带来计算算力的大量消耗和处理延时的增加。从业务角度来看,对于离线业务,可以通过业务在波峰和波谷之间闲置的计算算力进行图片转码处理;但对于在线业务,图片转码处理对于处理延时的要求就会有较高要求,为了满足处理延时的要求,有时候会先进行图片转码处理,把转码好的图片存储下来,当用户需要的时候直接传输,这样通过消耗存储资源为代价来解决处理延时的要求。但是这又带来一个新问题,用户查看图片的智能终端屏幕大小不一,如果都传同样大小的图片,显然不是最优。最优处理方法还是能够通过计算算力,实时进行图片转码处理。在数据中心里面,计算算力通常由x86些来提供,以前的x86CPU性能每18个月

4、就能翻倍(众所周知的“摩尔定律”),但目前工业界的发展方向是摩尔定律已经走到终点。例如,2016年3月24日,英特尔宣布正式停用“工艺年-架构年(IICk-TOCk)”处理器研发模式,未来研发周期将从两年周期向三年期转变。而国际半导体技术发展路线图(Internationa1Techno1ogyRoadmapforSemiconductors,简写ITRS)在维持了数十年,每两年更新一次为全画半孰行业提供建议和规划指南,也在2016年宣布不再做进一步的更新。一方面处理器性能再无法按照摩尔定律进行增长,另一方面数据增长对计算性能要求超过了按“摩尔定律”增长的速度。处理器本身无法满足高性能计算(H

5、PC:HighPerformanceCompute)应用软件的性能需求,导致需求和性能之间出现了缺口(参见图2).图2.计算需求和计算能力的缺口发展形式图像处理解决方案图片服务支持的能力丰富多样,基础功能包括多种缩略剪裁方式、文字图片水印、格式转换、断点续传、镜像存储、防盗链等。我们结合当前图文时代的用户需求,提供图片的上传、存储、处理、分发的全方位一体化的解决方案。目前,互联网图片服务的解决方案中落地存储和下载大部分图片格式还是JPEG/WEBP,但随着新的编码标准HEVC的出现,在同等图像质量下,HEVC的压缩效率会比JPEG/WEBP好30%70%,可以节省大量的存储和带宽,但是HEVC

6、的算法复杂度高导致CPU的编码延迟和吞吐在线上环境中无法满足,因此,我们开发了基于屿的新的解决方案。FPGA图像处理方案可以很好的解决线上环境的需求,当然,FPGA图像处理解决方案也兼容当前用户线上系统的WEBP等其他图像转码格式,可以很好的适应不同用户的需求,提供低延迟,高吞吐,低成本的解决方案。我们以HEVCFPGA图像处理为例,来说明在互联网业务中图片上传,存储,处理和下载的架构。图3.HEVCFPGA图片上传存储,处理,下载解决方案如图3所示,图片HEVCFPGA转码的部署主要是落地存储前以及下载前的转码服务器,使用FPGA做转码主要有以下优势:FPGA转码落地存储HEVC,可有效节省

7、存储成本。1.FPGA转码服务器和CPU转码相比可以降低服务器成本。FPGA转码HEVC图片和CPU相比吞吐量可以大大提高。在下载时实时生成HEVC图片,使用FPGA进行图片转码加速,会大大降低转码延迟,提高用户体验。图像编码算法分析在图像和视频编解码算法中,各个模块都是基于像素级运算或者基于块操作,而且针对各个像素或者图像块的操作是相同和重复的。早期的图片压缩标准JPEG和JPEG200,原始图像首先经过基于块的匹T变换或者小波变换,变换后的系数经过量化后再进行燧编码(包括HUffmar1编码或者自适应算术编码),进而输出压缩后的码流信息。在解码端,通过反向操作,可将码流信息进行解码。在JP

8、EG2000中,DCT变换被小波变换替代,可以更好的消除图像块内的冗余性,而且量化后的系统按照比特位平面进行自适应算术编码,可以达到更好的压缩性能。除了JPEG这类对原始图像直接变换的方法,还有一种是基于块预测的方法。也就是对一个图像块先进行预测,原始图像块和预测块的残差再进行变换,量化和编码。比较典型标准就是从H.264的帧内预测发展而来的WebP。随着新一代视频编码标准HEVC/H.265的推出,其帧内编码的压缩性能,较上一代标准提升接近一倍2。因此,将HEVC的帧内编码用于图像压缩也成为一种趋势。HEVC的帧内编码过程如图4所示。,姓而1彷大沙X,1f5.图8.HEVCCore内部算法处

9、理流程那么如何设计HEVCCOre实现算法功能呢?这里,编码器模块流水线设计成四级流水,如图9所示,四级流水CUR1D/E1NTRA/SE1/CABAC处理性能设计接近,并行起来后,平均处理每个1CU需要8400个周期,如果按照108OP图片一共510个1CU计算,单核理论上编码可以达到编46帧/s(FPGA电路实现频率200M),这样4核并行能达到184帧/s。具体来说,CUR1D完成当前图像的载入逻辑,PINTRA完成intra预测初选35种模式的遍历,得到最优的预测模式,这级流水算法上做了优化,预测参考像素没有像传统方式选择重构像素,而是选择当前像素做参考像素,这样优化,使得intra预

10、测初选可以单独划分为一级流水,和intra预测精选分开,使得编码器整体处理性能增加一倍。SE1完成帧内预测模式精选以及RDO模式选择,预测块大小支持32/16/8,由于涉及到变换量化等运算量大的逻辑,这一级流水是整个编码器的资源消耗大户,设计上在算法上以及逻辑资源消耗上做了权衡;CABAC模块完成头信息的码流生成以及每个1CU的语法元素和残差的编码,并完成码流的打包输出,这一级流水的主要问题在于CABAC的性能是否足够快,从而应对QP比较小编码更多bin的处理及时。图9.运算模块流水线性能和收益用FPGA完成JPEG格式图片转成HEVC格式图片,图片分辨率大小为1920x1080,FPGA处理延时相比CPU降低7倍,FPGA处理性能是CPU机器的10倍,FPGA机型单位性能成本是CPU机型的1/3(参见图10)。图10.图片转码FPGA和CPU对比总之,图片算法的FPGA实现,如果不考虑FPGA资源、硬件实现架构和处理性能,CPU图像压缩算法可以完全在FPGA进行“复制”实现,FPGA算法压缩性能可以完全等同CPU。但是现实没那么理想,FPGA算法实

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服