【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx

上传人:lao****ou 文档编号:73915 上传时间:2023-01-29 格式:DOCX 页数:20 大小:972.36KB
下载 相关 举报
【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx_第1页
第1页 / 共20页
【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx_第2页
第2页 / 共20页
【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx_第3页
第3页 / 共20页
【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx_第4页
第4页 / 共20页
【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx_第5页
第5页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx》由会员分享,可在线阅读,更多相关《【智能】虚拟数字人深度产业报告-18页_市场营销策划_2022年市场研报合集.docx(20页珍藏版)》请在第一文库网上搜索。

1、Q量子位虚拟数字人深度产业报告技术背景篇定义、关键词、分类、技术细节产业现状篇市场规模、发展阶段、细分场景及判断、产业链、竞争格局、中外对比、产业瓶颈量子位硬科技深度产业报告一虚拟数字人核心观点1.虚拟数字人的三大特征是虚拟化、NLPCA语音等多种技术共同成熟、高度拟人化。在技术层面上分为灵活的真人驱动型和基于深度学习的计算驱动型。2.在2030年,我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。身份型虑阻数字人1474386,1%2030年我国虎扳数字人整体市场规模人民币2703亿115.12.1%84

2、0287.9、35.4%64.6%955.4亿1747.2 亿3 .虚拟数字人的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。4 .虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。务型虚拟数字人身份型虚拟数字核心功能动触解务代翼人兆成68%产.腐坊鹏受俊达AI卧季.便供日常两俾、关怀等*史身份fl.用于震乐/社交履幼鱼常内容笺产及世界舞二分。,用于社交娱乐及WtMSO产出定位现宣世界中主持人.W9.加物主,箸1%整备色rut型化 国有关坏实的AJ场手 *根供像双力真人铮的*r分野 个体在虚就慢弹(Metaverse)中的第二分身代表

3、应用 小双上启鲍聿加、标化内咨觥作虐弟关怀外.虚孜晤伴脱手内VROat.序修花税内用产业价值L低巳有尸业的戒率,为奇市地本*戒2.后升AI助手就交且效豪.熊复於受废与谪用毋修1.力耒来的度#化世号界供人野穗心交叵中介.在市端创避新的,长京2降红H咫内容的税佐】国6 .国内外在细分市场上的竞争差异较大,具体包含技术层面、商业模式、细分市场及发展路线。7 .行业门槛及瓶颈主要来源于三方面:上限偏高的技术及美术门槛;客户积累带来的业务认知;在各细分市场亟待实现的标准化复制特别感谢:魔球科技、相芯科技、追一科技、中科深智、火山引擎、小冰公司、黑镜科技、科大讯飞、搜狗、百度及相关行业从事者对本报告的深度

4、参与(排名不分先后)。如需进一步交流探讨、加入垂直社群等,请联系量子位官方或量子位分析师:刘萌媛(请标注所在单位+职位)邮箱:mengyuan量子位硬科技深度产业报告一虚拟数字人技术背景1.1 定义虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。魔球科技漫逝IP齐四虚姒直播UnoeQ虚KI助手相芯科技虚*客服Soun:。:UneeQ盲同,相芯禽及产品手情.鹿

5、玷松楂产品下粉.网络公开糠激搜狗&新华社虚网主持人新小微7其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个场景中取代真人,完成语音交互方式升级的重要标准。虚拟一存在于非物理世界中,不同场景实现难度不同目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备与全息投影也将成为其重要存在方式。需注意的是,尽管其存在方式均在非物理世界中,由于各场

6、景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求人驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。整数字一依托多项技术存在,相关技术成熟成为其发展重要推动力虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。多位从业人员认为,虚拟数字人近年的发展来源于CG(ComputerGraphics,利用计算机进行视觉设计和生产人语音识别,图像识别、动捕等相关技术的共同成熟。而人一在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线外表:虚拟数字人的面部长

7、相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模八渲染水平、设计审美等影响HflNeon于真人采集UnrealEngine Metahuman Creator高保真建模英捱联盟Seraphlrw风格化Genies基于真人明星的虚冲数字人风格化行为:虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、语音合成模型中对语气词、韵德的处理等)、训练数据、驱动模型精度等影响交互:虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然

8、语曾理解及处理水平、知识图谱、预先设置知识库等影响。1.2 技术细节从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。美国虚拟主播CodeMik。采用真人驱动方法调整虚拟主播的动作及表

9、情事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。真人驱动型技术流程1 .形象设计及建模基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点2 .建模绑定将识别关键点映射至模型上,进行绑定。关键点绑定的数及位置影响最终效果。3 .表演捕捉利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼

10、神、手势等方面的关键点变化。4 .驱动及渲染真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成,形成特定设置语音5 .生成内容,进行互动进行直播,或录制其动作生成内容在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理

11、解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。计算驱动型技术流程1 .设计形象。扫描真人形态及表演、采集驱动数据利用多方位摄像头,对通用/特定模特进行打点扫描(视最终需求可进行全身或局部扫描),采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据计算驱动型技术流程2 .形象建模,进行绑定设计所需的模型,或基于特定真人进行高还原度

12、建模。进行关键点绑定。关键点绑定的数及位置影响最终效果。当需要基于真人照片生成虚拟内容时,一类做法是将通用的人脸模型迁移至该真人照片上,形成虚拟形象,实质为表情迁移。另一类则是生成动漫类效果,基于预先设置的形象分类算法,将真人照片中的眼型、发型等元素进行分类,并与预先设置的动漫元素进行匹配,最终生成动漫式的虚拟形象。3 .训练各类驱动模型:决定最终效果的核心步骤利用深度学习,学习模特语音、唇形、表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。魔球科技等业界领先的模型可组合出超千

13、种表情效果,并包含眼神驱动。科大讯飞、竹间智能等公司会对语音/文本中的因素进行提取,增加情感驱动模型等。目前为止,大多数厂商的驱动模型大多是语音唇形,语音驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。对于需对特定真人定制化的数字化虚拟数字人,部分公司会基于在通用驱动模型的基础上,结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。4 .内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术),将输入的本文转化为语音。基于语音,结合第3步得到的驱动

14、模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。通过时间磬,将语音和每帧的数字人图片进行结合。5 .进行渲染,生成最终内容。直播时进行实时渲染为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果附加步骤:针对需要进行交互的虚拟数字人,生产商会预先设置有问答库、知识图谱等,并承接入虚拟数字人的对话系统。当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。CG建模/图像迁移技术影响外观呈现NLP交互技术影响交互体验CV等深度学习模型影响驱动效果体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异,部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径以对话能力为核心。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效,如小冰等,公司能够为其添加较好的通用式互动能力。追一科技等公司则通过知识图谱、业务问答库、对话型工程引擎等增强受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服