AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx

上传人：lao****ou

文档编号：995289

上传时间：2024-08-28

格式：DOCX

页数：14

大小：297.13KB

《AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx》由会员分享，可在线阅读，更多相关《AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx（14页珍藏版）》请在第一文库网上搜索。

1、一、行业变化11、微软发布TheDawnof1MMs:Pre1iminaryExp1orationswithGpT-4V12、谷歌发布RT-X并开放训练数据集OPenX-Embodiment33、MeIa推出多模态大模型AnyMA14二、持续关注标的6三、行情回顾6四、产业要闻8芯片8智能驾驶9大模型10其他11五、重要公告I1六、风险提示13图表目录图表1GPT-4V使用上下文少样本学习1图表2：GPT-4V使用视觉指针输入1图表3：GPT-4V理解现实场景1图表4：GPT-4V理解各种物体1图表5：GPT-4V使用相关视觉指示完成任务2图表6：GPT-4V使用相关视觉指示完成任务2图表7：

2、GPT-4V在汽车保险领域应用2图表8：GPT-4V在医疗领域应用2图表9：GPT-4V的自我反思3图表10：GPT-4V多模态链使用3图表11：OpenX-Embodiment数据集情况3图表12：RT-X模型性能4图表13：AnyMA1模型结构4图表14：AnyMA1指令调整5图表15：AnyMA1效果有明显提升5图表16：AnyMA1效果有明显提升5图表17：中证人工智能指数、上证指数、沪深300指数涨跌幅比较6图表18：人工智能（中证）个股周涨幅前十名（）7图表19：人工智能（中证）个股周涨幅后十名（）7图表20：重点公司股票涨跌详情7图表21：人工智能行业一周重要公告12-、行业变化

3、1、微软发布TheDawnof1MMs:Pre1iminaryExp1orationswithGPT4V微软发布TheDawnof1MMs:PreIiminaryEXP1orationSWithGPT4V(ision),用来分析GPT-4V,分析重点关注GPT-4V执行各种任务的效果，作者们设计了涵盖多个领域的一系列输入，输入到GPT-4V,并观察和记录其输出，此后，他们对GPT-4V完成各类任务的能力进行评估。论文作者认为GPT-4V在处理任意多模态输入方面具有前所未有的能力，其功能的通用性使GPT-4V成为一个强大的多模态通用系统，此外,他们还认为GPT-4V独特的理解输入图像上绘制的视觉

4、标记的能力可以催生新的人机交互方法。该文章主要包括四个方面：GPT-4V支持格式、GPT-4V任务效果、GPTdV提示技巧以及最终应用展望等。GPT-4V支持格式方面，其支持处理图像、子图像、文本、场景文本和视觉指针(ViSUa1pointers)等多种输入。此外，GpT4V还支持11MS中支持的技术，包括指令跟随、思维链和上下文少样本学习等。资料来源：微软,资料来源：微软,GPT-4V任务效果方面，作者们测试了十大任务，包括开放世界视觉理、视觉描、多模态知、常识、场景文本理解、文档推理、写代码、时间推、抽象推理、情感理解，并对各项任务结果进行评估。资料来源：微软,资料来源：微软,GPT-4V

5、提示技巧指的是作者提出了一种新的多模态提示词技巧“visua1referringPrOmPIing”（视觉参考提示），通过在图像上指示感兴趣的物体+其他提示词，完成相关任务。资料来源：微软,资料来源：微软,在应用领域研究，作者提出了各种GPT-4V应用，例如，汽车保险领域、医学图像理解/放射学报告生成领域、零售业、工业缺陷检测、视觉情感分析等领域；See.9.4utoImumnceSec.93Medka1DamageEva1uationPrompt:Prompt:tmgrwtwriVaJanw19n3MfigZrdormooodaHkvM)WBuvManep0b03Bed82rQtMturhu

6、terwd“toZIP4MMinperTrdam4Q(obtwtomofRePMandrtfcMEsomevmcfepartCNpMa*wTSVWqacptobeccbwcjoenotamrShwoaftcedtMIAuctiftfrtNgfyotrorportrtBndMEf99*yiMMoragMVw9MridOMfprwdtU1vwwofnodcm*Q0AwmTicvwghrwctnOtttfiGNWexMtomMyaMs%foMr*(fro(tem19)aMAnMMVwear*runtefyegumtuHvnot*tonfwvnagoGFTBkMdon2mo.cpMrSMrttvtfr

7、mMiar9dUorfar41IMfeMWSTheModaa3t1roe1cc5cnThngep(31obpTOiframC*JtAKI*KiIimyuX0iq340etomtsnefcechonWCMdHf*ugM&FmMREaftmg*htofVT&crapfa,thoodra1buMra1IffdtbEiarXgCObo)touysorwodtoBrv00dOCrawdTiecmio(mmbrapor%waJdwdcmerrahendmodo1cFcvehcto.tuItftIiwtFthatmomMCUdtowmhHtwBfddcrmwnmRad0i09yReportGeneratxx

8、iEv1wonfrogftM资料来源：微软,资料来源：微软,在最终展望方面，作者们主要讨论多模态插件、多模态链、自我反思、自我致性和检索增强的语言模型等。图表9：GP,-4V的自我反思图表10：GPT-4V多模态链使用资料来源：微软,资料来源：微软,2、谷歌发布RT-X并开放训练数据集OPenX-Embodiment谷歌发布全球最大通用大模型之一RT-X并开放训练数据集OpenX-Embodimen1oOpenX-Embodiment由全球33家顶级学术实验室合作，整合了来自22种不同机器人类型的数据，在超过100万个场景中展示了500多种技能和150,000项任务，该数据集是同类中最全面的机

9、器人数据集。RT-X基于两个roboticstransformer(RT)模型构建而成。具体而言，他们使用RT-I训练RT-I-X,其中RT-1是建立在TranSformer架构上的35M参数网络，专为机器人控制而设计。此外，他们还在RT-2上训练RT-2-X,其中RT-2是一系列大型视觉语言动作模型，在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。(a)*DatasetsperRobotEmbodiment即外MW%夕/中图表I1：OPenX-EmbOdiment数据集情况使用新数据集的模型效果要显著优于原模型，此外，将其他机器人数据结合，能够实现原模型无法实现的功能：作者评估了在

10、特定任务上(例如开门)上原模型(RT-I)与改进后模型的比较，结果显示，使用OpenX-Embodiment数据集训练的RT-I-X平均性能优于原始模型50%；作者发现RT-2-X,能够实现良好的知识迁移，学习到数据中不存在的对象和技能，作者发现，在掌握新技能方面，RT-2-X的成功率是其之前的最佳模型RT-2的三倍。这也说明了，与其他平台的数据进行联合训练可以为RT-2-X赋予原始数据集中不存在的额外技能，使其能够执行新颖的任务。图表12:RTX模型性能KOUMode1SizeHistoryIxngth1aUM71Co-Tnuncdw/WcbInitia1(Zhcckpoin1IimeQic

11、tUSki1hiETgiiunRT-2Genera1izationEva1ua1iofi(RT-255BnoneGoog1eRobotaction(2)RT2X55BiumeRubOIicdata(3)KI-2-.55BnoneRobo1ksdaUexceptBrid职(4)K-2-X5B2RUbOtiCSda1a(S)RT2X5B!KMMTRUtM11i3data(6)K1、5B2RaIb(Iiic1U(7)RT2XSB2RiibiMicxdaUWeb-partrained27.3%62%Web-pevtrained7S%61%Web-pfctdned42.8%54%WCXMC1nined4

12、4.4%52%Wcb-MC1raiikrd14.5%30%11MX11ch0%Web(XV1ntincd48.7%47%资料来源：谷歌,3、Meta推出多模态大模型AnyMA1Meta推出了AnyMA1(Any-Moda1ityAugmented1anguageMode1),可将来自各种模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换到11M的文本嵌入空间。Meta使用了一个大型数据集进行预训练，包括2亿张图像、220万段音频、50万IMU时间序列、2800万段视频，所有数据集都与同一个大模型(11aMA-2-70B-Chat)对齐。AnyMA1为每种模态训练一个轻量级适配器，将输

13、入信号投射到特定11M的文本token嵌入空间中。在预训练模态对齐方面，该研究使用了1A1ON-2B数据集的一个干净子集进行图像对齐，使用AudioSet.AUdiOCaPS和C1OTHo数据集进行音频对齐，使用Ego4D数据集进行IMU和文本对齐。图表AnyMA1模型结构资料来源:Meta,为了提高模型对不同输入模态的指令跟随能力，Meta利用多模态指令调整数据集进行了额外的微调。具体来说将输入连接为这样响应目标，就同时以文本指令和模态输入为基础。对以下两种情况进行消减：在不改变11M参数的情况下训练投影层；或使用低级适应进一步调整11M行为。图表14：AnyMA1指令调整Example 1. CreativeInstructions(Image)InstructionIIromPtWriteashortstoryaboutthesceneinthisPbmo.Inc1udesomedia1oguebetweenthecharacters.ResponseTherestaurant(ab1estxx1emptybutadornedwithremnantsofamea1.seagu111andedonitsedge,spreadinghiswingsinadisp1ayOfdominance.Witharaucouscry.heftence1yguardedthep1