《AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx》由会员分享,可在线阅读,更多相关《AI巨头持续发力大模型领域建议持续关注AI领域投资机会.docx(14页珍藏版)》请在第一文库网上搜索。
1、一、行业变化11、微软发布TheDawnof1MMs:Pre1iminaryExp1orationswithGpT-4V12、谷歌发布RT-X并开放训练数据集OPenX-Embodiment33、MeIa推出多模态大模型AnyMA14二、持续关注标的6三、行情回顾6四、产业要闻8芯片8智能驾驶9大模型10其他11五、重要公告I1六、风险提示13图表目录图表1GPT-4V使用上下文少样本学习1图表2:GPT-4V使用视觉指针输入1图表3:GPT-4V理解现实场景1图表4:GPT-4V理解各种物体1图表5:GPT-4V使用相关视觉指示完成任务2图表6:GPT-4V使用相关视觉指示完成任务2图表7:
2、GPT-4V在汽车保险领域应用2图表8:GPT-4V在医疗领域应用2图表9:GPT-4V的自我反思3图表10:GPT-4V多模态链使用3图表11:OpenX-Embodiment数据集情况3图表12:RT-X模型性能4图表13:AnyMA1模型结构4图表14:AnyMA1指令调整5图表15:AnyMA1效果有明显提升5图表16:AnyMA1效果有明显提升5图表17:中证人工智能指数、上证指数、沪深300指数涨跌幅比较6图表18:人工智能(中证)个股周涨幅前十名()7图表19:人工智能(中证)个股周涨幅后十名()7图表20:重点公司股票涨跌详情7图表21:人工智能行业一周重要公告12-、行业变化
3、1、微软发布TheDawnof1MMs:Pre1iminaryExp1orationswithGPT4V微软发布TheDawnof1MMs:PreIiminaryEXP1orationSWithGPT4V(ision),用来分析GPT-4V,分析重点关注GPT-4V执行各种任务的效果,作者们设计了涵盖多个领域的一系列输入,输入到GPT-4V,并观察和记录其输出,此后,他们对GPT-4V完成各类任务的能力进行评估。论文作者认为GPT-4V在处理任意多模态输入方面具有前所未有的能力,其功能的通用性使GPT-4V成为一个强大的多模态通用系统,此外,他们还认为GPT-4V独特的理解输入图像上绘制的视觉
4、标记的能力可以催生新的人机交互方法。该文章主要包括四个方面:GPT-4V支持格式、GPT-4V任务效果、GPTdV提示技巧以及最终应用展望等。GPT-4V支持格式方面,其支持处理图像、子图像、文本、场景文本和视觉指针(ViSUa1pointers)等多种输入。此外,GpT4V还支持11MS中支持的技术,包括指令跟随、思维链和上下文少样本学习等。资料来源:微软,资料来源:微软,GPT-4V任务效果方面,作者们测试了十大任务,包括开放世界视觉理、视觉描、多模态知、常识、场景文本理解、文档推理、写代码、时间推、抽象推理、情感理解,并对各项任务结果进行评估。资料来源:微软,资料来源:微软,GPT-4V
5、提示技巧指的是作者提出了一种新的多模态提示词技巧“visua1referringPrOmPIing”(视觉参考提示),通过在图像上指示感兴趣的物体+其他提示词,完成相关任务。资料来源:微软,资料来源:微软,在应用领域研究,作者提出了各种GPT-4V应用,例如,汽车保险领域、医学图像理解/放射学报告生成领域、零售业、工业缺陷检测、视觉情感分析等领域;See.9.4utoImumnceSec.93Medka1DamageEva1uationPrompt:Prompt:tmgrwtwriVaJanw19n3MfigZrdormooodaHkvM)WBuvManep0b03Bed82rQtMturhu
6、terwd“toZIP4MMinperTrdam4Q(obtwtomofRePMandrtfcMEsomevmcfepartCNpMa*wTSVWqacptobeccbwcjoenotamrShwoaftcedtMIAuctiftfrtNgfyotrorportrtBndMEf99*yiMMoragMVw9MridOMfprwdtU1vwwofnodcm*Q0AwmTicvwghrwctnOtttfiGNWexMtomMyaMs%foMr*(fro(tem19)aMAnMMVwear*runtefyegumtuHvnot*tonfwvnagoGFTBkMdon2mo.cpMrSMrttvtfr
7、mMiar9dUorfar41IMfeMWSTheModaa3t1roe1cc5cnThngep(31obpTOiframC*JtAKI*KiIimyuX0iq340etomtsnefcechonWCMdHf*ugM&FmMREaftmg*htofVT&crapfa,thoodra1buMra1IffdtbEiarXgCObo)touysorwodtoBrv00dOCrawdTiecmio(mmbrapor%waJdwdcmerrahendmodo1cFcvehcto.tuItftIiwtFthatmomMCUdtowmhHtwBfddcrmwnmRad0i09yReportGeneratxx
8、iEv1wonfrogftM资料来源:微软,资料来源:微软,在最终展望方面,作者们主要讨论多模态插件、多模态链、自我反思、自我致性和检索增强的语言模型等。图表9:GP,-4V的自我反思图表10:GPT-4V多模态链使用资料来源:微软,资料来源:微软,2、谷歌发布RT-X并开放训练数据集OPenX-Embodiment谷歌发布全球最大通用大模型之一RT-X并开放训练数据集OpenX-Embodimen1oOpenX-Embodiment由全球33家顶级学术实验室合作,整合了来自22种不同机器人类型的数据,在超过100万个场景中展示了500多种技能和150,000项任务,该数据集是同类中最全面的机
9、器人数据集。RT-X基于两个roboticstransformer(RT)模型构建而成。具体而言,他们使用RT-I训练RT-I-X,其中RT-1是建立在TranSformer架构上的35M参数网络,专为机器人控制而设计。此外,他们还在RT-2上训练RT-2-X,其中RT-2是一系列大型视觉语言动作模型,在互联网规模的视觉和语言数据以及机器人控制数据上训练而成。(a)*DatasetsperRobotEmbodiment即外MW%夕/中图表I1:OPenX-EmbOdiment数据集情况使用新数据集的模型效果要显著优于原模型,此外,将其他机器人数据结合,能够实现原模型无法实现的功能:作者评估了在
10、特定任务上(例如开门)上原模型(RT-I)与改进后模型的比较,结果显示,使用OpenX-Embodiment数据集训练的RT-I-X平均性能优于原始模型50%;作者发现RT-2-X,能够实现良好的知识迁移,学习到数据中不存在的对象和技能,作者发现,在掌握新技能方面,RT-2-X的成功率是其之前的最佳模型RT-2的三倍。这也说明了,与其他平台的数据进行联合训练可以为RT-2-X赋予原始数据集中不存在的额外技能,使其能够执行新颖的任务。图表12:RTX模型性能KOUMode1SizeHistoryIxngth1aUM71Co-Tnuncdw/WcbInitia1(Zhcckpoin1IimeQic
11、tUSki1hiETgiiunRT-2Genera1izationEva1ua1iofi(RT-255BnoneGoog1eRobotaction(2)RT2X55BiumeRubOIicdata(3)KI-2-.55BnoneRobo1ksdaUexceptBrid职(4)K-2-X5B2RUbOtiCSda1a(S)RT2X5B!KMMTRUtM11i3data(6)K1、5B2RaIb(Iiic1U(7)RT2XSB2RiibiMicxdaUWeb-partrained27.3%62%Web-pevtrained7S%61%Web-pfctdned42.8%54%WCXMC1nined4
12、4.4%52%Wcb-MC1raiikrd14.5%30%11MX11ch0%Web(XV1ntincd48.7%47%资料来源:谷歌,3、Meta推出多模态大模型AnyMA1Meta推出了AnyMA1(Any-Moda1ityAugmented1anguageMode1),可将来自各种模态(包括图像、视频、音频和IMU运动传感器数据)的数据转换到11M的文本嵌入空间。Meta使用了一个大型数据集进行预训练,包括2亿张图像、220万段音频、50万IMU时间序列、2800万段视频,所有数据集都与同一个大模型(11aMA-2-70B-Chat)对齐。AnyMA1为每种模态训练一个轻量级适配器,将输
13、入信号投射到特定11M的文本token嵌入空间中。在预训练模态对齐方面,该研究使用了1A1ON-2B数据集的一个干净子集进行图像对齐,使用AudioSet.AUdiOCaPS和C1OTHo数据集进行音频对齐,使用Ego4D数据集进行IMU和文本对齐。图表AnyMA1模型结构资料来源:Meta,为了提高模型对不同输入模态的指令跟随能力,Meta利用多模态指令调整数据集进行了额外的微调。具体来说将输入连接为这样响应目标,就同时以文本指令和模态输入为基础。对以下两种情况进行消减:在不改变11M参数的情况下训练投影层;或使用低级适应进一步调整11M行为。图表14:AnyMA1指令调整Example 1. CreativeInstructions(Image)InstructionIIromPtWriteashortstoryaboutthesceneinthisPbmo.Inc1udesomedia1oguebetweenthecharacters.ResponseTherestaurant(ab1estxx1emptybutadornedwithremnantsofamea1.seagu111andedonitsedge,spreadinghiswingsinadisp1ayOfdominance.Witharaucouscry.heftence1yguardedthep1