《人工智能行业专题报告.docx》由会员分享,可在线阅读,更多相关《人工智能行业专题报告.docx(32页珍藏版)》请在第一文库网上搜索。
1、人工智能行业专题报告AI大模型需要什么样的数据集数据将是未来A1大模型竞争的关键要素人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似,并使用R1HF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。基于此,人工智能领域的权威学者吴承恩发起了“以数据为中心的AI”运动,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗
2、和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。因此,我们认为未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。82:以4t再申心的AI:蹩不更.我们认为A1大模型需要高质量、大规模、多样性的数据集。1)高质量:高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,即减少训练时长。2)大规模:OpenA1在Sca1ing1awsforNeura11anguageMode1s)中提出11M模型所遵循的“伸缩法则”(sca1ing1aw),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。3)丰富性:数据丰
3、富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。数据集如何产生建立数据集的流程主要分为1)数据采集;2)数据清洗:由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题;3)数据标注:最重要的一个环节;4)模型训练:模型训练人员会利用标注好的数据训练出需要的算法模型;5)模型测试:审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型;6)产品评估:产品评估人员使用并进行上线前的最后评估。IIA4:流程#1:数据采集。采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。数据采集目前常用的有三种方
4、式,分别为:1)系统日志采集方法;2)网络数据采集方法;3)ET1o流程#2:数据清洗是提高数据质量的有效方法。由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题,故需要执行数据清洗任务,数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了A1算法的有效性。流程#3:数据标注是流程中最重要的一个环节。管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,一个标注任务将会分配给多个标注员完成。流程#4:最终通过产品评估环节的数据才算是真正过关。产品评估人员需要反复验证模型的标注效果,并对模型是否满足上线目标进行评估
5、。他山之石#1:海外主要大语言模型数据集参数量和数据量是判断大模型的重要参数。2018年以来,大语言模型训练使用的数据集规模持续增长。2018年的GPT1数据集约4.6GB,2023年的GPT-3数据集达到了753GB,而到了2023年的Gopher,数据集规模已经达到了10,55OGB。总结来说,从GPT1到11aMA的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit链接、CommOnCraWI和其他数据集。A9:t*9*a*itMI大梗型RedditUMCommonCraw1GPT-14646GPT-240GPT-311421101570753ThePi1ev1611824
6、4227167825Megatron-IIBMT-N1G11.44610716164118779831271374Gopher12.5210016443450482310550I11aMA838592410.24064828.2数据集#1:维基百科维基百科是一个免费的多语言协作在线百科全书。维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成
7、,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。数据集#2:书籍书籍主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorPUS)等。ProjectGutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的Smashwordso数据集#3:期刊期刊可以从ArXiV和美国国家卫
8、生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。ArXiV是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。美国国家卫生研究院是美国政府负责生物医学和公共卫生研究的主要机构,支持各种生物医学和行为研究领域的研究,从其官网的“研究&培训”板块能够获取最新的医学研究论文。图表12:ArViX官网X*EStukrwrvcBanBVMccmewIor22354gMrtMMtrw*MMn.1KragrMnQandw*ns
9、KNne.andconoms1tnaonVwatomnetpvwMMdby*XwIUMKttMTCft-k0*MRMdattM*artf1Mare(4MmonNog(Vw1*iHWfvfMtagMtvt)*WBHowdoWemakeaccessib1eresearchpapersafety?UJr8,/MEtayM.pyOMcnaftAcrttTVXh*DtfrQatownOrhMManmwaaantMMM9pmIWMyMt*MBtoAMhg9wacandr1MmMVVPhysics MFoPMo(MIrO.E*crandMmcacrie01*CondvwMIMtor.QuvunGmmSaeC
10、enOvwdMf1MrSttMCtfMMncs,S*orQhConMMBkmbSUPwM1IdM GmmIAMMQotwiCsBBdo*MBnfvovtimkd) Ena*RcEw*m*4Bn*KM1MV*) kw9%5uem(IMrtMKb)数据集#4:WebTeXt(来自Reddit链接)Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字或链接在网站上发布,使它成为了一个电子布告栏系统。WebTeXt是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续
11、文本数据具有指导作用。Reddit宣布收取数据使用费。2023年4月,Reddit宣布将向使用其API训练A1聊天机器人的公司收取数据使用费,其中便包含微软、谷歌、OPenA1等,目前具体收费标准暂未公布,但可能会根据不同使用者划分不同等级收费标准。许多公司已经意识到数据的价值,如图片托管服务商Shutterstock已把图像数据出售给OpenA1,推特计划针对AP1使用收取几万到几十万美元不等的费用。数据集#5:Commoncraw1C4Commoncraw1是2008年至今的一个网站抓取的大型数据集。CommOnCraW1是一家非盈利组织,致力于为互联网研究人员、公司和个人免费提供互联网副
12、本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。其他数据集ThePiIe数据集:一个825.18GB的英语文本数据集,用于训练大规模语言模型。ThePiIe由上文提到的ArXiv、WebTextWikiPedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外,ThePiIe还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。S4.16:捺疗被尺寸划分的ThePi1ett1成材状图CompositionofthePi1e
13、byCategoryActoMCBntarrwtProwOtaIogMMm其他数据集包含了GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集等。他山之石#2:海外主要多模态数据集模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,包括文本、图像、视频、音频等。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过去数年中,多模态大模性参数量及数据量持续提升。例如,2023年Stabi1ityA1发布的StabIeDiffusion数据集包含58.4亿图文对/图像,是2023年OPenA1发布的DA11-E数据集的23倍。类别#1:语音+文本SEM
14、A1NE数据集:创建了一个大型视听数据库,作为构建敏感人工侦听器(SA1)代理的迭代方法的一部分,该代理可以使人参与持续的、情绪化的对话。高质量的录音由五台高分辨率、高帧率摄像机和四个同步录制的麦克风提供。录音共有150个参与者,总共有959个与单个SA1角色的对话,每个对话大约持续5分钟。固体SA1录音被转录和广泛注释:每个剪辑6-8个评分者追踪5个情感维度和27个相关类别。类别#2:图像+文本COCO数据集:MSCOCO的全称是MicrosoftCommonObjectsinContext,起源于微软于2014年出资标注的MicrosoftCOCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。图像包括91类目标,328,000张图像和2,500,000个1abe1。COnCePtUa1CaPtiOnS数据集:图像标题注释数据集,其中包含的图像比MS-COCO数据集多一个数量级,并代表了更广泛的图像和图像标题风格。通过从数十亿个网页中提取和过滤图像标题注释来实现这一点。