《AI前沿专题005_LLM语言模型的开悟时刻.docx》由会员分享,可在线阅读,更多相关《AI前沿专题005_LLM语言模型的开悟时刻.docx(10页珍藏版)》请在第一文库网上搜索。
1、AI前沿专题005_ LLM语言模型的开悟时刻现在最流行的几个生成性Al,包括ChatGPT和画画的Ab背后都是大型语言模型 (Large Language Models,简称LLM)。这大约也是通往AGl的技术路线。这一讲咱们就 来说大型语言模型为什么这么厉害。我先举个例子。我问ChatGPT:棒球棒能被藏进人的耳朵里吗?它说不能,因为人的耳 朵是非常小的,棒球棒的大小和形状超出了耳朵所能容纳的范围很有条理。我又问它:为什么金箍棒能被藏进孙悟空的耳朵里?它回答说因为那是虚构的故事,金 箍棒的形状和大小可以随意改变回棒球棒能被藏进人的耳朵里吗?不,棒球棒无法被藏进人的耳朵里。人的耳朵内部是非常
2、小且复杂的结构,只 能容纳适合大小的物品,例如耳机或耳塞。即使是较小的物品,如小型器械或 药物,也需要通过特殊的工具才能安全地放入耳朵内部。棒球棒的大小和形状 显然是超出了耳朵所能容纳的范围。此外,把物品塞进耳朵可能会导致耳朵内 部组织受到损伤,引起疼痛、感染或其他健康问题,因此绝对不应该尝试这种 行为。 为什么金箍棒能被藏进孙悟空的耳朵里?金箍棒是西游记中孙悟空所使用的武器,它的形状和大小可以随意改变, 甚至能够缩小到可以被藏在孙悟空的耳朵里。然而,这只是一个虚构的故事情节,不具备现实可行性。在现实中,任何物体 都有一定的大小和形状,无法无限制地缩小或扩大,而人的耳朵内部也有固定 的大小和结
3、构,不能容纳大的物体。因此,孙悟空将金箍棒藏进耳朵里这一情节是一个神话和传说中的故事,不应 该被看作是现实世界中的真实情况。你仔细想想的话,这两个回答非常了不起。很多人说语言模型都是基于经验的,只能根 据词汇之间的相关性输出答案,根本没有思考能力但是从这两个问答来看,ChaIGPT是 有思考能力的。谁会写一篇文章讨论棒球棒能否被藏进人的耳朵里呢? ChatGPT之所以能给出答案,肯 定不是因为它之前听过这样的议论,而是因为它能进行一定的推理。它考虑到并且知道棒球 棒和耳朵的相对大小,它还知道金箍棒和孙悟空是虚构的。它这些思维是怎么来的呢?你可能没想到,这些能力,并不是研发人员设计的。研发人员并
4、没有要求语言模型去了解每种物体的大小,也没有设定让它们知道哪些内 容是虚构的。像这样的规则是列举不完的,那是一条死胡同。ChaIGPT背后的语言模型,GPT-3. 5,是完全通过自学,摸到了这些思考能力。以及别的 能力一一你列举都列举不出来的能力。连开发者都说不清楚它到底会多少种思考能力。语言模型之所以有这样的神奇能力,主要是因为它们足够大。GPT-3有1750亿个参数。Meta刚刚发布了一个新语言模型叫LLaMA,有650亿个参数。 GOogle在2022年4月推出一个语言模型叫PaLM,有5400亿个参数;之前GoOgIe还出过 有L6万亿个参数的语言模型。据OPenAl的CEo山姆阿尔特
5、曼(Sam Altman)说,GPT- 4的参数并不会比GPT-3多很多;但大家猜测,GPT-5的参数将会是GPT-3的100倍。这是只有在今天才能做到的事情。以前不用说算力,光是存储训练模型的语料的花费都 是天文数字。1981年,IGB的存储成本是10万美元,1990年下降到9000美元,而现在也 就几分钱。你要说今天的Al科学跟过去相比有什么进步,计算机硬件条件是最大的进步。今天我们做的是大模型。大就是不一样Ello当然语言模型有很多高妙的设计,特别是我们一再提到的 transfOrnIer就是一个最关键的架构技术,但主要区别还是在于大。当你的模型足够大,用 于训练的语料足够多,训练的时间
6、足够长,就会发生一些神奇的现象。2021年,OPenAl的几个研究者在训练神经网络过程中有一个意外发现2o我给你打个比方,比如说你在教一个学生即兴演讲。他什么都不会,所以你找了很多现 成的素材让他模仿。在训练初期,他连模仿这些素材都模仿不好,磕磕巴巴说不成句子。随 着训练加深,他可以很好地模仿现有的演讲了,很少犯错误。可是如果你给他出个没练过的 题目,他还是说不好。于是你就让他继续练。继续训练好像没什么意义,因为现在只要是模仿他就都能说得很好,只要是真的即兴发 挥他就不会。但你不为所动,还是让他练。就这样练啊练,突然有一天,你惊奇地发现,他会即兴演讲了!给他一个什么题目,他都能现编现讲,发挥得
7、很好! 这个过程就是下面这张图一一Modular Division (training on 50% of data) oo 80 60 40 20 0IO1IO2IO3IO4IO5IO6Optimization Steps红色曲线代表训练,绿色曲线代表生成性发挥。训练到一千步乃至一万步,模型对训练 题的表现已经非常好了,但是对生成性题目几乎没有能力。练到10万步,模型做训练题的 成绩已经很完美,对生成题也开始有表现了。练到100万步,模型对生成性题目居然达到了 接近100%的精确度。这就是量变产生质变。研究者把这个现象称为开悟(Grokking)Jo 开悟,到底是发生了什么呢?先别急,我再举
8、个例子。ChatGPT有个很关键的能力叫做少样本学习(Few-Shot Learning),就是你给它一两个例子,它就能学会你的意思并且提供相似的输出。比如我让ChatGPT模仿我给出的例题,再出几道小学数学题。我的例题是“小明有3个 苹果,妈妈又给了他2个苹果,现在他有几个苹果? ChalGPT马上就出了五道题,全是这 个风格一一比如“小李有5支笔,他送出了 3支笔,还剩下几支笔?”给一个小学生出几道数学题,模仿下面这个例子:小明有3个苹果,妈妈又给他 2个苹果,现在他有几个苹果?好的,以下是几道数学题,适合小学生做练习:1 .小燕有4个橙子,她吃掉了2个橙子,还剩几个橙子?2 .小李有5支
9、笔,他送出了3支笔,还剩下几支笔?3 .小华有6个糖果,他把其中3个糖果分给了小明,还剩几个糖果?4 .小红有7元钱,她去买了一本书花了3元钱,还剩下几元钱?5 .小张有8个球,他把其中4个球送给了小李,还剩几个球?希望这些题目能够帮助小学生练习基本的数学计算和问题解决能力。简直就跟对对联一样。少样本学习是个关键能力,你可以利用这个能力让ChatGPT帮你 做很多事情。那这个能力是怎么出来的呢?来自更多的参数和训练。看下面这张图一一it2 Fs eou Daffi图中说的是GPT-2和GPT-3模型的演化。参数越多,少样本学习的能力就越强。而少样本学习只是其中一项能力。还有很多别的能力也是如此
10、:大了,它们就出来了。这个现象,其实就是科学家之前一直说的涌现(Emergence)。涌现的意思是当一个 复杂系统复杂到一定的程度,就会发生超越系统元素简单叠加的、自组织的现象。比如单个 蚂蚁很笨,可是蚁群非常聪明;每个消费者都是自由的,可是整个市场好像是有序的;每个 神经元都是简单的,可是大脑产生了意识万幸的是,大型语言模型,也会涌现出各种意想不到的能力。2022年8月,谷歌大脑研究者发布一篇论文3,专门讲了大型语言模型的一些涌现 能力,包括少样本学习、突然学会做加减法、突然之间能做大规模、多任务的语言理解、学 会分类等等而这些能力只有当模型参数超过1000亿才会出现一一,Things th
11、atlanguage modelscan do”我再强调一遍:研究者并没有刻意给模型植入这些能力,这些能力是模型自己摸索出来 的。就如同孩子长大往往会出乎家长的预料。当然你也得先把模型设计好才行。TranSfonner架构非常关键,它允许模型发现词与词 之间的关系一一不管是什么关系,而且不怕距离远。但是当初发明transformer的研究者, 可没想到它能带来这么多新能力。事后分析,涌现新能力的关键机制,叫做!思维链(Chain-Of-Thought)J 3o简单说,思维链就是当模型听到一个东西之后,它会嘟嘟啜嘴自说自话地,把它知道的 有关这个东西的各种事情一个个说出来。比如你让模型描写一下“
12、夏天”,它会说:“夏天是个阳光明媚的季节,人们可以去海滩游泳,可以在户外野餐”等等。思维链是如何让语言模型有了思考能力的呢?也许是这样的。比如我们前面说的那个 棒球棒问题。模型一听说棒球棒,它就自己跟自己叙述了棒球棒的各个方面,其中就包括大 小;那既然你的问题中包括“放进耳朵”,大小就是一个值得标记出来的性质:然后对耳朵 也是如此它把两者大小的性质拿出来对比,发现是相反的,于是判断放不进去。只要思考过程可以用语言描写,语言模型就有这个思考能力。Input PromptCompletion再看下面这个实验4Question: which studio created the movie char
13、acters in the image?Answer:DisneyXInput PromptCompletionStandard PromptingIntroduce this picture in detail:Input PromptCompletionIt is a robot that is holding up a cube that is the same lor as the wall. The image is from the film, WALL-E, by Pixar Animation Studios. It is the stfy of a small robot n
14、amed WALL-E and his quest to build the ultimate life form. WALL-E is created by a group.It is a robot that is holding up a cube that is the same lor as the wall. The image is from the film, WALL-E, by Pixar Animation Studios. It is the story.Question: which studio created the movie characters in the
15、 image?Answer:Multimodal Chain-Of-Thought Prompting给模型看一张图片一一皮克斯电影机器人总动员的一张剧照一一问它是哪个制片厂 创造了图中的角色。如果没有思维链,模型会给出错误的回答。怎么用思维链呢?可以先要求模型自己把图片详细描述一番,它说“图中有个机器人 手里拿了一个魔方,这张照片是从机器人总动员里面来的,那个电影是皮克斯制作 的”。这时候你简单重复它刚说的内容,再问它那个角色是哪个制片厂创造的,它就答 对了。既然如此,只要我们设置好让模型每次都先思考一番再回答问题,它就能自动使用思维 链,它就有了思考能力。有人分析5,思维链很有可能是对模型进行编程训练的一个副产品。我们知道现在 GPT-3是可以帮程序员编程的。在还没有接受过编程训练的时候,它没有思维链。也许编程 训练要求模型必须得从头到尾跟踪一个功能是如何实现的,得能把两个比较远的东西联系 在一起一一这样的训练,让模型自发地产生了思维链。就在2月27日,微软公司发布了一篇论文,描写了微软自己的一个新的语言模型,叫 做多模态大型语言模型(multimodal large language model, MLLM),代号是 KOSMOS- Io什么叫多模态呢? ChalGPT是你只能给它输入文字;