快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx

上传人:lao****ou 文档编号:800660 上传时间:2024-05-27 格式:DOCX 页数:4 大小:74.13KB
下载 相关 举报
快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx_第1页
第1页 / 共4页
快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx_第2页
第2页 / 共4页
快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx_第3页
第3页 / 共4页
快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx》由会员分享,可在线阅读,更多相关《快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx(4页珍藏版)》请在第一文库网上搜索。

1、快手基于A1veo优化大规模网络直播和短视频自动语音识别服务快手成立于2011年3月,总部位于北京,是全球用户利用短视频或者直播形式记录和分享日常生活的领先内容社区和社交平台,每天产生上千万条原创新鲜视频。图:快手ASR应用场景项目概述自动语音识别(ASR)是电子商务、短视频、直播等众多应用的核心技术之一。ASR在快手有许多的应用场景,是快手APP,直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。ASR流式自动语音识别,己经成为快手各种创新服务的核心技术之一。比如广受主播们喜爱的直播间小快机器人(语音助手),快手APP语音搜索、直播间语音输入法、语音魔法表情、一甜相机实时字

2、幕,以及最新上线的快影自动字幕服务等等,为全球数亿用户带来了前所未有的各种创新体验。作为全球最受欢迎的直播和短视频应用平台之一,快手全球平均每天有3亿活跃用户通过各种终端在快手平台记录和分享他们的生活或体验。面对如此庞大的规模用户和应用场景,快手希望能够优化其ASR服务,满足不断增长的客户需求,并为他们提供更好的用户体验。用户体验最重要的性能指标,就是时延和并发路数。致力于“围绕快手核心业务打造技术护城河”的快手异构计算中心,借助赛灵思A1veo吗及相关工具项目挑战在快手之前基于CP1J框架的处理流程中,特征提取等前处理模块运行时间占比约为5%-10%,TDNN+1STM声学模型运行时间占比约

3、为60%80%,而包含语言模型的解码器部分运行时间占比约为15%30%。快手异构计算中心,希望找到一个更合适的异构底层器件,将最耗时的TDNN+1STM声学模型转移到这个器件上并进行优化。快手异构计算中心团队认为,以TDNN1STM为主结构的流式声学模型优化的关键痛点有三个,那就是时延(1atenCy)、实时率(RTF,Rea1TimeFactor)和并发数(ConCUrrency),具体而言需要解决如下问题: 缩短时延,为用户提供实时的流式语音识别ASR体验; 提高并发数,保障海量流式数据并发处理的带宽需求; 提供灵活性及易用性,满足现有多业务模型的特点。如可以同时运行多个模型,可以多模型实

4、时任意切换,且能满足未来模型的升级换代; 降低单位算力成本,实现更低总拥有成本; 满足A1算法的高精度需求。此外,快手对配进行了评估,发现其便件使用率(UtiIiZatiOn)比较低,不能满足RTF需求,SRAM容量也无法满足TDNN+1STM模型高并发性的需求。至于主流的ASIC,除了以上介绍的硬件使用率问题外,还存在不支持Ka1di框架,定点实际只有12bit等问题,很难满足ASR优化在精度上的需求。综上所述,快手技术团队认为,满足上述需求的理想的异构器件平台,应当是一个可以全定制的专用平台,可以通过软硬件协同设计确保精度符合各种不同业务的标准。解决方案快手异构计算中心经过评估后,决定选用

5、赛灵思的AIVeOU501V加速器卡来优化ASR服务。A1veoU50数据中心加速器卡基于赛灵思高性能U1traSca1e+架构,采用了高效的75瓦小型封装,而且配备了100Gbps网络I/O和高带宽内存。这些特性为快手的ASR解决方案提供了关键的低功耗、高带宽、大SRAM内存和小尺寸优势。而A1VeoU501V(1owVo1tage)则是U50系列的低电压版本,和标准电压版本相比,功耗更低,散热要求更少。“我们认为理想的ASR加速解决方案,是可以支持高带宽、大SRAM和定点推断的硬件平台,”快手异构计算中心总监刘凌志博士表示:“赛灵思的A1veoFPGAU501V完全符合我们的要求。”异构器

6、件吞吐延时成本功耗灵活性FPGAMediUm/High1owMedium1owHighGPUHighHighHighHighHighASICVeryHigh1ow1ow/MediumVery1owUOVV图:快手各种器件选型比较结合公司自研的定点通用推理框架和定点C模型,快手基于AIVeOU501V及赛灵思相关VitisH1S高层次综合及VitisDesignF1ow,从算法、系统、软件和硬件等多个关键层面对ASR系统进行了多方位的创新,应用了多项最先进的优化技术:图:ASR系统整体架构算法层面:采用图融合、图优化、图同构、图分割,以及不重训的高精度量化技术,在保证精度的同时,有效的压缩了模型

7、,使之更有利于FPGA计算效率的发挥;系统层面:自研通用推理框架及适合FPGA的通用HOSt调度框架,支持多模型,模型可扩展,自动化部署,具有很强的易用性;软件层面:设计BatCh机制,基于OPenC1的任务调度及负载均衡策略,实现了任务级的数据传输、kerne1计算等高效并行处理;硬件层面:自定义基于超长指令字的指令集架构,设计编译器,并基于VitiSTMH1S高层次综合优化技术,快速完成了高效的FPGA底层设计。和直接采用硬件描述语言(如VeriIogHD1)相比,H1S技术在更高的抽象层次上使用CC的语法描述硬件行为,不仅达到了和Veri1og接近的效果,而且加速了各种优化技术的实现,将

8、开发时间从3个月缩短到6周。优化后的系统整体架构如图三所示:调度加速引擎的代码框架(Host)接收输入的语音数据,经过前处理、在经网络推断和后处理过程,生成识别后的文本。其中黄色部分的神经网络推断过程是卸载到AIVeO加速卡上来完成的。成效借助赛灵思A1veo加速卡及相关设计工具,快手最终实现了针对TDNN+1STM声学模型的全定点推理硬件加速方案,全面优化了ASR服务,实现了:1 .大幅减轻了CPU的工作负载,将单台服务器业务处理能力提升7.5倍;2 .大幅降低了端到端时延,平均缩短达37.67%;3 .大幅缩减了系统总成本,降至0.29(相当于总成本锐减71%)04 .大幅缩短了开发周期。通过采用OPenC1实现了与现有业务无缝集成,并借助VitisDesignFIOW将设计周期从3个月减少到6周。这是FPGA在国内大规模直播及短视频自动语音识别场景落地的首个成功案例,展示了快手各种创新应用背后技术团队强大的实力。2023年中以来,优化的ASR服务已经在快手直播及短视频应用平台广泛部署,目前有数亿用户正在享受其所带来的前所未有的语音识别体验。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服