《生成式AI行业市场分析.docx》由会员分享,可在线阅读,更多相关《生成式AI行业市场分析.docx(10页珍藏版)》请在第一文库网上搜索。
1、生成式AI行业市场分析1、生成式A1在视频/3D/游戏等领域的渗透加速生成算法模型不断突破创新,下游应用场景不断拓展基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和3D扩展,更广泛地应用于下游应用场景。生成对抗网络(GAN)是早期最著名的生成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消失和模式崩溃等问题的影响。与GAN相比,扩散模型(DiffusionMode1)只需要训练“生成器”,不需要训练别的网络(判别器、后验分布等),训练时仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型相对GAN来说具有更灵活的模型架构和更精确的对数似然计算,
2、生成图像质量明显优于GAN,已经成为目前最先进的图像生成模型。此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模型扩展到视频领域,在未加字幕的视频和配对的文本-图像数据的大规模数据集上训练出视频扩散模型。NeRF(神经辐射场)的出现为3D场景生成带来了新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF(NeuraIRadianceFieId)是一种基于神经网络的3D重建技术,不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一个连续的5D辐射场隐式存储在神经网络中,输入多角度的2D图像,通过训练得到神经辐射场模型,根据模型渲
3、染出任意视角下的清晰照片。Runway:生成式A1内容平台,Gen1可实现用文字和图像从现有视频中生成新视频RUnWay是一家生成式A1内容平台,致力于让所有人都能进行内容创作。RUnWay创立于2018年,总部位于纽约,提供图片、视频领域的生成式A1服务。Runway得到众多资本青睐,获得谷歌领投的D轮融资。创立以来,Runway已获得Fe1icisCoatueAmP1ify、1UX、Compound等顶级投资机构投资。23年6月,Runway获得由谷歌领投的1亿美元的D轮融资,这笔融资交易包括三年内7500万美元的谷歌云积分和其他服务,估值达到15亿美元。主要产品为Gen-1和Gen-2,
4、Gen-1可实现用文字和图像从现有视频中生成新视频,Gen2可实现文字生成视频功能。Gen-1:不需要灯光、相机和动捕,通过将图像或文本提示的结构和风格应用于源视频的结构,逼真且一致地合成新视频,且具有表现力、电影感和一致性。Gen-1提供给用户五种不同的视频制作模式:1)Sty1iZatiOn:将任何图像或提示的风格转移到视频的每一帧;2)Storyboard:将模型变成完全风格化和动画的渲染。3)Mask:隔离视频中的主题并使用简单的文本提示对其进行修改;4)Render:通过应用输入图像或提示,将无纹理渲染变成逼真的输出;5)Customization:通过自定义模型以获得更高保真度的结
5、果,释放Gen-1的全部功能。Gen-1的性能优势:基于用户研究,GEN-1的结果优于现有的图像到图像和视频到视频的转换方法,比StabIeDiffUSiOn1.5提升73.83%,比Text21ive提升88.24%oGen2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖的视频。Gen-2在Gen-1的基础上迭代,保留通过将图像或文本提示的结构和风格应用于源视频的结构合成新视频的功能,新增了只用文字便可生成视频的的功能。Gen-2在Gen的五种视频制作模式上新增了三项新的模式:1)TexttoVides仅通过文本提示合成任何风格的视频;2)Text+1magetoVideo:
6、使用图像和文本提示生成视频;3)ImagetoVideo:用一张图片生成视频(变体模式)。Gen-2已于2023年6月上线,用户可以通过网页端和移动端App免费体验文字生成视频的功能。收费模式上,Runway采用订阅模式,分为Standard和Pro两个版本:Standard15美元/月;Pro35美元/月。订阅版本提供更高的credits(制作视频消耗credits)更长的视频长度、更高的分辨率等。1umaA1:3D内容解决方案平台,基于NeRF上线文字转3D和视频转3D功能1umaAI是一家3D内容解决方案平台。1umaAI创立于2023年,总部位于加州。公司创始人在3D视觉、机器学习、实
7、时图形学上有所建树:CEO&CofounderAmitJain曾于苹果任职,在3D计算机视觉、摄像头、M1、系统工程和深度技术产品方面有者丰富经验;CTO&CofounderA1exYu致力于推动神经渲染和实时图形领域的发展,研究成果包括PIenOXe1s、PIenOctrees1pixe1NeRF01umaA1深耕3D领域,也发布多项3D生成产品。22年10月开放网页版1uma;22年12月推出文生3D模型功能;23年1月QS版APP开始支持NeRFReshoot;23年2月推出网页版全体积NeRF渲染器;23年3年QS版APP支持AR预览,同月推出视频转3DAPI。23年4月发布1umaU
8、nreaIEngineaIpha,帮助开发者在Unrea15中进行完全体积化的渲染,无需对几何结构或材质进行修补。主要产品:1umaApp:目前只推出QS客户端,可以通过iPhone上传视频,基于NeRF生成3D场景。1UmaAPP支持导入视频,以及引导模式和自由模式三种:导入模式,和Web模式功能类似,对设备和视频理论上要求最低;引导模式,需要360度拍摄,APP将具体提示框提醒拍摄视角、拍摄位置;自由模式,支持非360度(部分视角)拍摄,App不会给出明确提示框,需要尽可能拍摄多个角度。网页端:目前集成了三大主流功能:网页版1Uma、文字转3D模型、视频转3DAPI。网页版1Uma:上传照
9、片、视频来进行三维重建,网页版可以上传更大的文件,目前视频和图片(ZIP压缩包)体积最大限制5GB;文字转3D模型:输入文字描述生成对应的3D模型。视频转3DAPI:效果基本和网页版一致。收费模式为按次收费,转换一个视频费用为1美元,转换时间在30分钟左右。Unity:制作和运营交互式实时3D(RT3D)内容平台,结合A1大模型赋能游戏业务Unity是一家全球领先的制作和运营交互式实时3D(RT3D)内容的平台,也是全球最大的游戏引擎公司。收购ironsOUrCe之后,其主营业务包括与开发相关的引擎类产品Create和与广告营销相关的产品GrowoUnity成立于2004年,起初为Overth
10、eEdgeEntertainment并进行游戏开发工作,2005年公司在游戏开发基础上转型工具,并于2005年发布Urdty1.0版本。20余载,Umty先后登陆并支持苹果IOS平台、OS平台、WindOWS平台等,伴随着iPhone以及整个移动互联网的发展,Unity迎来用户数量的快速增长。同时,经过长期的迭代升级以及并购,公司逐步建立起游戏以及其他领域的业务,形成当前公司的主要业务架构,实现全平台全产业链覆盖的高兼容特性。2023年,公司发布A1产品:UnityMuseUnitySentis,宣布结合A1大模型赋能游戏业务。主要产品:UnityMuse:提供A1驱动协助的扩展平台,它加速了
11、像视频游戏和数字李生这样的实时3D应用和体验的生成。在Muse上,用户能够通过自然语言在Unity编辑器中开发游戏,打破技术壁垒。UnitySentis:嵌入神经网络,解锁全新实时体验。在技术层面,UnitySentisI连接神经网络与UnityRuntime,因此,A1模型能够在Unity运行的任何设备上运行。Sentis是第一个也是唯个将A1模型嵌入到实时3D引擎中的跨平台解决方案。SemiS在用户的设备而非云端运行程序,因此其复杂性、延迟和成本都大大降低。MuseChat:基于A1用户可以搜索跨越UEty文档、培训资源和支持内容,以获取来自Unity的准确且最新的信息。MUSeChat能
12、够帮助开发者快速获取相关信息,包括工作代码样本,以加速开发进程和提供解决方案。OpenAI:3D生成技术Point-E与Shap-E的更新迭代Point-E是一个3D模型生成器,可以在几分钟内生成3D图像。Point-E是一个机器学习系统,可以通过文本输入制作3D物体,由OpenAI于2023年12月发布到开源社区。Point-E本身包括两个模型:G11DE模型和image-to-3D模型。前者类似于DA11-E或StabIeDiffusion等系统,可以从文本描述生成图像。第二个模型由OpenAI使用图像和相关的3D物体进行训练,学习从图像中生成相应的点云。NVIDIA:3DMoMaMagi
13、C3D、NviDIAPicassoNeura1ange1o3DMoMa:从二维图像中提取三维物体。2023年6月,NVIDIA推出3DMoMa,可通过图像输入生成三角网格组成的3D模型,并可直接导入图形引擎。这项方案的重点是,可直接导入支持三角形建模的3D建模引擎、游戏引擎、电影渲染器,可以在手机、浏览器上运行。3DMoMa生成的3D模型自带三角形网格,将3D模型生成自动化,将有望加速艺术、游戏、影视等内容创作。Magic3D:高分辨率的文本到3D内容创建技术。2023年11月,英伟达推出Magic3D,采用了与DreamFusion类似的两段式生成技术路线,但使用不同的生成模型。Magic3
14、D可以在40分钟内创建高质量的三维网格模型,比DreamFusion快2倍,并实现了更高的分辨率NVIDIAPicasso:用于构建生成式A1视觉应用程序的云服务。2023年3月,英伟达推出NVIDIAPicasso,企业、软件创建者和服务提供商可以在其模型上运行推理,在专有数据上训练NV1DIAEdify基础模型,或者从预训练的模型开始,从文本提示生成图像、视频和3D内容。PiCaSSo服务针对GPU进行了全面优化,并在NviDIADGXCIoud上简化了训练、优化和推理。此外,NVIDIA也与AdobeGetty1magesShutterstock等企业进行了合作,共同开发NviDIAPi
15、casso模型。App1e:发布3D生成ApiObjectCapture与3D场景生成模型GAUDI2023年6月,苹果发布了面向MaC的摄影测量AP1“Objectcapture”。AppIeObjectCapture为App1e设备用户提供了一种相对快速和简单的方法来创建现实世界对象的3D表示这意味着可以将物理对象转换为数字对象。使用iPhone或iPad,可拍摄对象的照片,并使用macOSMonterey上新的对象捕获AP1将其转换为针对增强现实(AR)进行优化的3D模型。物体捕捉功能使用摄影测量技术将iPhone或iPad上拍摄的一系列照片转换为USDZ文件,这些文件可以在“AR快速查
16、看”中查看,无缝整合到Xcode项目中,或在专业的3D内容工作流程中使用。2023年7月,来自苹果的A1团队推出了3D场景生成的最新神经架构GAUDI0GAUDI是一个能够捕捉复杂而真实的三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用了一种可扩展但强大的方法来解决这个具有挑战性的问题。研究人员首先优化一个隐表征,将辐射场和摄像机的位置分开,然后将其用于学习生成模型,从而能够以无条件和有条件的方式生成三维场景。GAUD1在多个数据集的无条件生成设置中取得了SOta的性能,并允许在给定条件变量(如稀疏的图像观测或描述场景的文本)的情况下有条件地生成三维场景。Goog1e技术路径剖析:从DreamFie1dS到DreamFUSiOn的迭代升级DreamFieIds:训练DreamFieIdS算法时需要多角度2D照片,完成训练后便可生成3D模型、合成新视角。而C1IP的作用,依然是评估文本生成图像的准确性。文本输入至DreamFieIds后,未