《智能汽车行业分析.docx》由会员分享,可在线阅读,更多相关《智能汽车行业分析.docx(22页珍藏版)》请在第一文库网上搜索。
1、智能汽车行业分析1、OpenAI引领,人工智能进入大模型时代1.1、 ChatGPT横空出世,引领人工智能新浪潮人工智能历经多年发展,在诸多领域超越人类。自1956年8月达特茅斯会议上“人工智能”概念诞生以来,行业几经起落不断发展壮大。临近新千年的1997,IBM深蓝计算机打败国际象棋大师卡斯帕罗夫成为首台打败国际象棋世界冠军的电脑。2010年,谷歌宣布自动驾驶汽车计划。2012年卷积神经网络A1exNet在大规模视觉识别挑战赛中以比第二名低10.8个百分点的错误率夺冠,引发轰动,开启了深度学习黄金时代。2016年DeepMind公司的A1phaGo以4:1大比分战胜当时世界冠军李世石,人类将
2、围棋冠军也让与计算机,掀起人工智能新一轮热潮。多年以来,像计算器超越人类的计算能力一样,人工智能在越来越多领域超越人类,并被应用到千行百业,未来将继续在更多的领域崭露头角,为人类赋能。ChatGPT横空出世,再次引发人工智能热潮。2023年11月,ChatGPT横空出世,作为一种应用在对话场景的大语言模型,它可以通过更贴近人的方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求,同时拥有惊艳的思维链推理能力和零样本下处理问题能力。在理解人类意图、精准回答问题、流畅生成结果方面远超人类预期,几乎“无所不能”,引发网络热潮。据瑞银数据,ChatGPT产品推出2个月后用户数量
3、即过亿,而上一个现象级应用TikTOk达到1亿用户花费了9个月时间。微软将ChatGPT整合到其搜索引擎必应中后,在1个多月的时间内让必应日活跃用户数过亿。图4:ChatGPT可完美实现用户的需求甚至可输出代码Q帮我写一段用ViT实现图像分类的代码画vm,以下是TffiffiViT模空实现图像分类的PyTofChft科示例:GPT-4能力进一步提升,安全性显著增强。OPenA1在当地时间2023年3月14日发布了GPT3.5(ChatGPT基于GPT3.5开发)的升级版GPT4,性能全面超越ChatGPT。其具备多模态能力,可以同时支持文本和图像输入。支持的文本输入数量提升至约32000个to
4、kens,对应约2.5万单词。性能方面,(1)理解/推理/多语言能力增强,在专业和学术考试中表现突出,全面超越GPT3.5,通过了统一律师考试的模拟版本,分数在考生中排名前10%。(2)理解能力显著增强,可以实现“看图说话”,甚至能够理解一些幽默的图片笑话。(3)可靠性相比GPT3.5大幅提升19%。(4)安全性指标相比GPT3.5有显著提升,对不允许和敏感内容的错误反应显著下降。1.2、 算法是人工智能的基石,TranSfOrmer逐步成为主流121、始于N1P,延伸至各领域,TranSfOnner在人工智能行业展现统治力算法是构成模型的基石,循环神经网络(RNN)和卷积神经网络(CNN)曾
5、为自然语言处理和图像处理的领域主流算法。早年人工智能领域常见的算法包含循环神经网络(RNN)和卷积神经网络(CNN),其中循环神经网络每个环节的输出与前面的输出有关(有“记忆”),因此可更好的处理序列问题,如文本、股市、翻译等。卷积神经网络则以图像识别为核心,通过卷积核进行窗口滑动来进行特征提取,进而实现图像识别等功能。但两类算法均存在自身的问题,循环神经网络并行度低,计算效率受限,同时输入的数据较为庞大时,早期的记忆容易丢失。而卷积神经网络由于需要卷积核滑动来提取特征,面对距离较远的特征之间的关系识别能力有限。图12:循环神经网络适合处理序列信息Transformer结构性能强大一经推出迅速
6、得到认可。Transformer在谷歌著名的论文“Attentionisa11youneed”首次出现,其优点在于并行度高,精度和性能上均优于传统神经网络。该算法采用编码器解码器(Eneoder-DeCoder)架构,编码器接受输入并将其编码为固定长度的向量,解码器获取该向量并将其解码为输出序列。该算法早期被应用于翻译领域,相比传统RNN只关注句子相邻词之间的关系,Transformer会将句子中的每个字与所有单词进行计算,得出他们之间的相关度,而确定该词在句子里更准确的意义。因此TranSfOrmer拥有更优的全局信息感知能力。始于N1P,逐步延伸到各大应用领域。在计算机视觉领域,早年卷积神
7、经网络(CNN)几乎占据统治地位,TranSfOrmer出现后,大量基于Transformer及CNN和Transformer算法的结合体涌现,诞生了最初应用在图像识别领域的ViSionTransformer,应用在目标检测领域的DETR,应用在分割领域的SETR等等诸多算法。此外在其他领域,Transformer也开始崭露头角,观察TranSfonT1er有关的论文,几年之内,其所覆盖的领域迅速泛化,涵盖文本、图像、语音、视频等。1.2.2、 大语言模型多基于TranSfOrmer构建,DeCOder0n1y系列占优大语言模型形成三大类别,Decoder-On1y系歹U占优。出色的性能让Tr
8、ansformer架构已经成为各种大语言模型的主干,前文提到Transformer结构由编码器和解码器构成,而单独基于编码器或者解码器均可构建大语言模型,因此业内形成三类大模型路线:Decoder-On1y(仅解码器)、Encoder-On1y(仅编码器)、EnCoder-Decoder(编码器解码器)。其中采用Encoder-On1yWW谷歌的Bert、微软的Deberta等,其采用“完形填空”式的预训练,再根据所需的应用领域用少量标注过的数据进行Fine-tuning(微调)。采用Decoder-On1y的有GPT等,其采用“预测下一个单词”的方式进行预训练,之后通过指令微调等实现特定领域
9、功能的激发。此外也有采用Encoder-Decoder架构的模型如谷歌的T5Meta的Bart清华大学的ChatG1M等。值得注意的是当GPT3推出后,大量基于Decoder-On1y的算法涌现出来,成为主流的大模型算法构建方式。图17:GPT模式采用DeCoder-OI11y的算法11M技术发展路线:GPT模式(DeeOder-OnIy)sTransformerGPTiC:由两阶段到阶段(传向语方模型值训练+zerosotfwshotprompt,Instruct):单向语方模型(值测NeXtTOkn)Koder-ARS,attefx1to1eftcontextITransformerTra
10、nsformersssisSegment11.3、 大模型+预训练+人类反馈微调,大模型蓄势待发131、探求ChatGPT的能力来源,寻找构建大模型的有效方法GPT的能力来源于预训I练+指令微调+基于人类反馈的强化学习。ChatGPT的前身为GPTa基于GPT3,OPenA1对大模型进行了诸多探索,开发出了多个可应用于不同领域的模型。对比这些不同的模型,在初代的GPT-3上即展现出语言生成、情景学习(in-cOnteXt1earning,遵循给定的示例为新的测试应用生成解决方案)、世界知识(事实性知识和常识)等能力,而这些能力几乎都来自于大规模的预训练,通过让拥有1750亿参数的大模型去学习包
11、含3000亿单词的语料,大模型已经具备了所有的基础能力。而通过指令微调(Instructiontuning),帮助大模型“解锁”特定领域的能力如遵循指令来实现问答式的聊天机器人,或泛化到其他新的任务领域。而基于人类反馈的强化学习(R1HF,Reinforcement1earningwithHumanFeedback)则让大模型具备了和人类对齐”的能力,即给予提问者详实、公正的回应,拒绝不当的问题,拒绝其知识范围外的问题等特性。1.3.2、 大参数+海量数据预训练+基于人类反馈的微调构成打造大语言模型的要素大参数量变带来质变,“涌现”现象带来大模型能力跃迁。当模型规模较小时,模型的性能和参数大致
12、符合比例定律,即模型的性能提升和参数增长呈现线性关系,而当参数量上升到一定程度,模型的性能会突然跃迁,打破比例定律,实现质的飞跃,这被称为模型的“涌现”能力。诸多研究发现,大参数量,配合海量数据训练,大语言模型在In-context1earning(情景学习)、Instructfo11owing(指令遵循)、ChainofthOUght(思维链,即可逐步解决问题)方面会出现“涌现”现象。因此模型拥有较大参数量是其拥有超乎想象性能的前提。S2I:模型加模到达一定程度会出现涌现”现象海量数据预训练不可或缺。参数量庞大的大语言模型需要大量覆盖广泛内容的高质量数据。目前的语料库包含网页、书籍、对话、百
13、科、书籍、代码等。数据集的规模和质量对模型的性能表现至关重要,大模型玩家采用独特的数据训练模型以增强模型性能。如ProjectGutenberg(古腾堡计划)是一个经典的西方文学数据集,其由超过70000本文学书籍组成,包括小说、诗歌、散文、戏剧、科学、哲学等诸多类型作品,是目前最大的开源藏书之一,被用于Meta的大语言模型11aMA以及英伟达和微软联合推出的大语言模型MT-N1G的训练,而GPT3中所使用的Books1和Books3数据集则至今未公开发布。恰当的模型微调亦尤为重要。预训练构筑模型强大的基础能力之后,恰当的模型微调将赋予模型在特定领域的能力和与人类“对齐”的能力。在这里,模型调
14、整的方法繁多,以ChatGPT的训练过程为例,预训练好的基础模型进一步的训练通常分为三步:(1)采用人工标注好的数据来训练模型;(2)通过人类对模型答案的排序训练一个奖励模型;(3)使用奖励模型通过强化学习的方式训练ChatGPT。其中后两个步骤称为R1HF(基于人类反馈的强化学习)。在GPT4的训练过程中,OPenA1还进一步加入了基于规则的奖励模型(RBRMs)来帮助模型进一步生成正确的回答,拒绝有害内容。可以看出模型微调对模型最终的效果实现至关重要,玩家独特的训练和微调方法会让自己的模型形成独特的性能。1-4.多模态成为趋势,应用端千帆竞渡,人工智能迎来iPhone时刻OPenA1产品一
15、经发布,全球掀起大模型研发的热潮,诸多巨头切入大模型开发领域。在模型构建方面,ChatGPT等产品提供良好范式,玩家可基于此方式构建自己的产品。同时多模态的大模型已经成为玩家们的终极目标,而随着图像、视频数据的介入,大模型的能力亦将实现进一步提升。在应用端,也呈现出繁荣发展的态势,诸多玩家与大模型厂商合作以求探索新的业务和盈利模式。而随着后期多模态等大模型的发展进一步加速,以及变得更准确、更可靠、更安全;基础大模型+特定行业应用的业务形式会逐步铺开,人工智能赋能千行百业,有望再次引领新的“iphone”时刻。2、大模型赋能自动驾驶,算法、数据闭环、仿真全面受益2.1 自动驾驶算法、数据不断迭代
16、,长尾问题处理成为关键自动驾驶算法从基于规则逐步走向神经网络,从模块化部署走向端到端一体化,TranSfOrmer+BEV逐步成为主流。目前自动驾驶算法历经多年演变,呈现出几大特点。首先,基于神经网络的算法逐步替代基于规则的算法,早年神经网络主要用于感知环节,现在逐步在向规划控制环节渗透。其次,自动驾驶算法在早期以模块化部署,每个模块拥有独立的优化目标,但整体模型的效果未必达到最优,因此端到端的自动驾驶解决方案映入人们眼帘,学界和产业界均进行了诸多探索。最后,我们看到行业玩家逐步认可TranSfOrmer+BEV的算法构建模式,模型架构上逐步走向趋同,这无疑将推动包含芯片在内的整个产业链加速发展。长尾问题处理是自动驾驶面临的主要挑战,数据驱动提供解药。当前,大部分算法可以覆盖主要