人工智能行业分析研究.docx

资源描述

《人工智能行业分析研究.docx》由会员分享，可在线阅读，更多相关《人工智能行业分析研究.docx（38页珍藏版）》请在第一文库网上搜索。

1、人工智能行业分析研究1大模型构筑A1基石，MaaS未来可期11N1P五级进阶，大模型应运而生从基于规则到基于人的意识，大型语言模型是技术进步的必然产物。自然语言处理发展到大型语言模型的历程可分为五个阶段：规则、统计机器学习、深度学习、预训练、大型语言模型。考虑到机器翻译是N1P中难度最高、综合性最强的任务，可借助该功能来论述不同技术阶段的典型特点。从1956年到1992年，基于规则的机器翻译系统在内部把各种功能的模块串到一起，由人先从数据中获取知识，归纳出规则后教给机器,然后由机器执行这套规则，该阶段为规则阶段；从1993年到2012年是统计机器学习阶段，在此期间，机器翻译系统可拆成语言模型和

2、翻译模型，该阶段相比上一阶段突变性较高，由人转述知识变成机器自动从数据中学习知识，当时人工标注数据量在百万级左右；从2013到2018年，进入深度学习阶段，其相比于上一阶段突变性较低，从离散匹配发展到embedding连续匹配，模型变得更大，标注数据量提升到千万级；预训练阶段存在于2018年到2023年，跟之前比较，最大变化是加入了N1P领域杰出的自监督学习，将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段，将预训练数据量扩大3到5倍,典型技术栈包括EnCoder-DeCOder、TransformerAttention等。大模型阶段在数据标注、算法、人机关系三方

3、面的性能均有跨越式提升。从2023年起开始进入大模型阶段，该阶段的突变性很高，已经从专用任务转向通用任务或是以自然语言人机接口的方式呈现，旨在让机器遵循人的主观意志。在数据标注方面，大模型已经从原来需要大量标注数据进化到运用海量非标注数据，越来越多数据被利用起来,人的介入越来越少，未来会有更多文本数据、更多其它形态的数据被模型运用。在算法方面,大模型的表达能力越来越强、规模越来越大，自主学习能力越来越强，从专用向通用趋势显著。195O.XCf1XHdSOKKMMTCXMAICNN*t.18W瓜代fmwn2Xm2R!SR*NN1Mf1t2.?006*nrT3T9AS1201E.7次wrBAff.

4、201Mtt*attMSWxdVecaft.2014W加19t2o52017FMbooHTFyxA*r曲.,MttMKMCAN.Ooc)9MIM5T,xozERMrwAirnmR7GFT1bO(RTBttawhf*x*eMteMttnj1201.OpnAV0*(g6ot)rfi*WTiIU4h*x*tnaj.用IO全球A1大模不演化痴速1.2.从CNN到Transformer,大模型底层架构显著优化从CNN到RNN再到1TSM,语言处理性能得到有效提升。早期N1P注重语法分析，通过设计语法方向实现句子分析。伴随着语料数据复杂化、多样化，句子分析难度也提升。随后卷积神经网络（CNN）引发计算机视

5、觉领域的变革，因此CNN也逐步用在N1P上。但传统神经网络擅长图像识别，考虑到语言的顺序属性，直接进行文字处理则效果有限。所以，随后循环神经网络（RNN）模型应用铺开，RNN将顺序作为权重因子，实现了较好的效果。但RNN单元的记忆力短和梯度不稳定，因而用于长序列时也有一定局限性。后来长短期记忆网络（1TSM）成为关注点，一定程度解决了RNN的痛点，但针对长段落的处理能力仍需提升。TranSfOrmer模型可以替代当前的递归模型，消减对输入输出的顺序依赖。TranSfOrmer模型作为完全基于注意力机制的新神经网络架构,在技术特征上主要体现为可以并行、速度更快。过往要训练一个深度学习模型，必须使

6、用大规模的标记好的数据集合来训练，这些数据集合需要人工标注，成本极高。在TranSfOrmer下，通过MaSk机制，遮挡已有文章中的句段，让A1去填空，从而使很多现成的文章、网页等信息就成为天然的标注数据集，成本节省极为明显；同时，RNN的顺序计算、单一流水线的问题在Transformer的并行机制下也能得到有效解决。TranSformer问世后，迅速取代循环神经网络RNN的系列变种，可以满足市面上几乎所有的自然语言处理的需求，成为主流的模型架构基础。OPenAI、谷歌、百度等都是基于TranSfOrmer模型进行大模型研发和应用。基于预训练机制，Transformer标志着“基础模型”时代的

7、开始。TranSfOrmer作为基础性模型，开始对人脑学习过程重点关注，为其他模型（GPT、GPT-3、BERT等）的演化提供基本手段。同时，迁移学习（TranSfer1earning）使得基础模型成为可能，而预训练又是迁移学习的主要方式。迁移学习的思想是将从一项任务中学习到的“知识”（例如，图像中的对象识别）应用于另一项任务（例如，视频中的活动识别）。在TranSformer模型中，预训练（Petraining）是迁移学习的主要方法：“预训练”是将大量低成本收集的训练数据放在一起，经过某种预训方法去学习其中的共性，然后将共性移植”到特定任务模型中，再使用相关特定领域的少量标注数据进行“微调”

8、来适应下游任务。大规模化（SCa1ingUP）使基础模型更强大，因而GPT模型得以形成。大规模需要三个要素：（i）计算机硬件的改进例如，GPU吞吐量和内存在过去四年中增加了10倍；（H）TranSfOrmer模型架构的开发，该架构利用硬件的并行性来训练比以前更具表现力的模型；以及（iii）更多训练数据的可用性。基于TranSfOrmer的序列建模方法现在应用于文本、图像、语音、表格数据、蛋白质序列、有机分子和强化学习等，这些例子的逐步形成使得使用一套统一的工具来开发各种模态的基础模型这种理念得以成熟。例如，GPT-3在上下文学习,只需向下游任务提供提示（任务的自然语言描述），语言模型就可以适应

9、下游任务，这是产生的一种新兴属性。并且，只有千亿参数规模以上的大模型，才可能出现“智慧涌现能力”，涌现出包括“思维链”等强大的推理模式，而具备“涌现能力”的大模型也正是ChatGPT得以推出的重要前提条件。图12MCgMrOnTUringN1G(MFN1G)再次刷新模型规模纪录(IMoCMM)QO1mtmtojoJonj13大模型技术路线各有侧重，MaaS已成产业趋势大型语言模型研究的发展有三条技术路线：Bert模式、GPT模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是GPT技术路线，直到2023年底在GPT-3.5的基础上产生了ChatGPT0到2019年后，Bert路

10、线基本没有标志性的新模型更新，而GPT技术路线则趋于繁荣。从Bert往GPT演化的过程中，模型越来越大，所实现的性能也越来越通用。各类大语言模型路线各有侧重，GPT模式在生成类任务表现最优。大型语言模型按照从数据到知识来划分，数据可分为通用数据和领域数据，知识分为语言知识和世界知识。从任务类型来划分，大型语言模型可以分为单一任务和多任务、理解类和生成类；Bert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类以及某个场景的具体任务，表现得“专而轻”。GPT模式是由两阶段到一阶段(单向语言模型预训练+zero-shotprompt),比较适合生成类任务、多任务，表现得

11、“重而通”。T5模式则将两者的方法结合，包含有两阶段（单向语言模型预训练+Fine-tuning）。根据当前研究结论，如果模型规模不特别大，面向单一领域的理解类任务，适合用T5模式,而GPT模式在做生成类任务时的效果最好。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。基础大模型日趋成熟，MaaS已成产业趋势。近年来，基础模型（也被称为预训练模型）的研究从技术层面逐渐趋向于大一统，不同人工智能领域（例如自然语言处理、计算机视觉、语音处理、多模态等）的基础模型从技术上都依赖三个方面：一是Transformers成为不同领域和问题的通用神经网络架构和建模方式，二是生成式预训练

12、（generativepretraining）成为最重要的自监督学习方法和训练目标,三是数据和模型参数的规模化进一步释放基础模型的潜力。技术和模型的统一将使得A1大模型逐步标准化、规模化，基于标准化的大模型，有助于为大范围产业化提供基础和可能，从而实现MaaS生态（ModeIasaservice）0进一步借助云部署和云端协作，A1将有可能成为像水电一样的“新基建”赋能各行各业，并进一步催生颠覆性的应用场景和商业模式。基于视觉图像的大模型应用仍得益于大型语言模型的升级演化。扩大模型规模和数据大小可提高基础模型的泛化能力，从而提升模型的下游迁移能力。遵循这一理念，科研人员逐渐将模型规模扩大到了数十

13、亿个参数，这些大模型在语言理解、语言生成等任务上都取得了更好的成效。同样地,在CV领域,具有30亿参数的SWinTranSformerV2.0,也证明了视觉大模型在广泛视觉任务中的优势。再者，微软亚研院提出了将图像视为一种语言的方式，可直接复用已有的大规模语言模型的预训练方法，从而更有利于视觉基础模型的扩大。图13BEiF3首次将掩码预训练应用在了CV领域C1IP和BEiT-3的技术突破和广泛应用催生视觉图像大模型。C1IP是OPenA1在2023年提出的跨模态模型，该模型专注于从文本特征映射到图像特征。通过在互联网上抓取大量图片文本，学习一段时间过后，CIJP能够实现用自然语言解释对图片的理

14、解，也能通过文字描述来生成图片，这是一种跨模态的生成和转换。之后爆红的文生图大模型DA11-E2,能够通过用户给的一段文字描述生成图片，其背后的技术基础正是C1IP模型。Stab1eDiffusion也使用了C1IP,实现了通过文本提示调整模型，并借助扩散模型改善图像质量的目的。2.GPT系列一路领先，海外大模型角逐激烈2.1.OpenA1:GPT系列大模型一骑绝尘，智能化程度提升迅速OpenA1正是基于Transformer基础模型推出了GPT系列大模型。GPT(GenerativePre-trainedTransformer)即生成式预训练Transformer模型，模型被设计为对输入的单

15、词进行理解和响应并生成新单词，预训练代表着GPT通过填空方法来对文本进行训练。在机器学习里，存在判别式模式(discriminativemode1)和生成式模式(GeneratiVemodeI)两种类型，相比之下，生成式模型更适合大数据学习，判别式模型更适合人工标注的有效数据集，因而，生成式模型更适合实现预训练。GPT模型依托于Transformer解除了顺序关联和对监督学习的依赖性的前提。在N1P领域，基于原始文本进行有效学习的能力能够大幅降低对于监督学习的依赖，而很多深度学习算法要求大量手动标注数据，该过程极大限制了其在诸多特定领域的适配性。在考虑以上局限性的前提下，通过对未标记文本的不同语料库进行语言模型的生成式预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之前方法不同，GPT在微调期间使用任务感知输入转换，以实现有效的传输，同时对基础模型架构的更改最小。GPT相比于TranSformer等模型进行了显著简化。相比于Transformer,GPT训练了一个12层仅decoder的解码器，原Transformer模型中包含编码器和解码器两部分(编码器和解码器作用在于对输入和输出的内容进行操作，成为模型能够认识的语言或格式)。同时，相比于Goog1

展开阅读全文