《GPT4正式发布, 具备多模态和超越上一代的专业学术能力.docx》由会员分享,可在线阅读,更多相关《GPT4正式发布, 具备多模态和超越上一代的专业学术能力.docx(8页珍藏版)》请在第一文库网上搜索。
1、OpenAI:我们刚刚发布了 GPT-4 ,这是OPenAl在扩大深度学习方面的最新里程碑。1 ) GPT-4 是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中 能力不如人类。2)但GPT-4在各种专业和学术基准上表现出人类水平的表现。例如它通过了模拟 的律师考试,分数在应试者的前10% ;相比之下GPT-3.5的分数则在后10%左右。我们花了 6个 月的时间,利用我们对抗学习和来自ChatGPT的经验反复调整GPT-4 ,结果在事实性、可引导性 以及合规性取得了有史以来最好的结果(尽管远非完美).在过去的两年里,我们重建了整个深度学习堆栈,并与AZUre
2、一起,为我们的工作负荷从头开始共同设计 了一台超级计算机。一年前,我们训练了 GPT-3.5作为系统的第一次试运行。我们发现并修复了一些错 误,并改进了我们的理论基础。因此,我们的GPTT训练运行(至少对我们来说是如此I )前所未有的稳 定,成为我们第一个训练性能能够提前准确预测的大型模型随着我们继续专注于可竟的扩展,我们的目 标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力-我们认为这对安全至关重要。我们正在通过ChatGPT和APl发布GPT-4的文本输入功能。为了准备更广泛地提供图像输入功能,我们正 在与一个合作伙伴紧密合作,以开始。我们还在开源OPenAlEvals,这是
3、我们自动评估人工智能模型性能的 框架,允许任何人报告我们模型中的缺点,以帮助指导进一步的改进。GPT4与上一代GPT3.5在不同考试中的分数对比Exam results (ordered by GPT 3.5 performance)Estimated percentile lower bound (among test takers)展望-图像输入:GPT-4可以接受文本和图像的提示,这与纯文本平行,让用户指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像,在一系列的 领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯
4、文本输入类似的能力。此外, 它还可以使用为纯文本语言模型开发的测试时间技术,包括少数几个镜头和思维链提示。目前图像输入仍 然是没有公开提供的一个研究方向。Al的可引导性:我们一直在努力实现我们在定义人工智能行为的文章中概述的计划的各个方面,包括可引 导性,与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(以及很快ChatGPT用户)现在可以 通过在“系统”消息中描述这些方向来规定他们的Al的风格和任务。系统消息允许APl用户在范围内大幅 定制他们的用户体验。我们将继续在这里进行改进,但我们鼓励你尝试并让我们知道你的想法。GPT4的局限性:尽管有这样的能力,GPTY也有与早期GPT模
5、型类似的局限性。最重要的是,它仍然不是 完全可靠的(它对事实产生幻觉,并出现推理错误)o在使用语言模型的输出时,特别是在高风险的情 况下,应该非常小心,准确的协议(如人类审查,用额外的背景接地,或完全避免高风险的使用)与特定 的使用案例的需求相匹配.虽然仍然是一个真实的问题,但相对于以前的模型(这些模型本身也在不断改 进),GPT-4大大减少了幻觉。在我们的内部对抗性事实性评估中,GPT-4的得分比我们最新的GPT-3.5高 40%.Internal Factual Eval by CategoryAccuracyOn nine categories of internal adversari
6、ally-designed factual evals, we compare G versions. There are significant gains across all topics. An accuracy of 1.0 means th agreement with human ideal responses for all questions in the eval.TrUthfUlQA等外部评测:该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在 统计学上具有吸引力的事实错误答案配对。GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而在 RL
7、HF后训练(应用我们对GPT-3.5使用的相同过程)之后,存在很大差距。他的模型在输出时可能会有各种偏差-我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们 最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观, 允许这些系统在广泛的范围内进行定制,并获得公众对这些范围的意见。GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它 有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。 有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT
8、-4也可能在预测中自信地犯错,在它可能犯错的时候不注意反复检查工作。有趣的是,基础的预训练 模型是高度校准的(它对答案的预测信心一般与正确的概率相匹配)。然而,通过我们目前的后训练过程, 校准程度降低了。总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但这样做仍然是可能的。此外,仍然存在 越狱的情况,以产生违反我们使用指南的内容。随着人工智能系统的每个令牌的风险”的增加,在这 些干预措施中实现极高的可靠性将变得至关重要;目前,重要的是用部署时间的安全技术来补充这些限制, 如监测滥用。GPT-4和后续模型有可能以有益和有害的方式大大影响社会。我们正在与外部研究人员合作,以改善我们 对潜在
9、影响的理解和评估,以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对 GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。APl和费用:要获得GPT-4 API (请在我们的等待名单上注册。我们将从今天开始邀请一些开发者,并逐步 扩大规模,以平衡容量与需求。如果你是研究人工智能的社会影响或人工智能对接问题的研究人员,你也 可以通过我们的研究人员访问计划申请补贴的访问。一旦你有了访问权,你就可以向gpt-4模型提出纯文本 请求(图像输入仍处于有限的测试阶段),随着时间的推移,我们会自动更新到我们推荐的稳定模型(你 可以通过调用gpt-4-0314来锁定当前版本,我们将支持
10、到6月14日)。定价为每IOOOPromttOkeno.03美 元,每l0 completion token0.06美元。默认的速率限制是每分钟40k代币和每分钟200个请求。GPT-4的上下文长度限制为8,192个token ,我们还提供支持32,768个token (约50页文本)版本的有限访 问,gpt-4-32k,它也将随着时间的推移自动更新(当前版本gpb4-32k-0314,也支持到6月14日)。价格 是每1000 prompt toke0.06美元,每IOoo completion tokens.0.12美元。我们仍在改进长上下文的模型质量, 并希望得到关于它在你的使用案例中的表
11、现的反馈。我们正在根据容量以不同的速度处理对8K和32K引擎 的请求。投资建议:我们认为随着GPT4的重磅发布,相关多模态大模型的垂直领域应用或将进一步得到开发,多 模态大模型相关的应用场景将伴随大模型能力的提升和成本降低逐步普及,美股建议关注:【微软】(OffiCe 目前拥有接近4亿的用户,收购OPenAl后OffiCeARPU提升与AZUre云相关业务有望贡献增量收入)、【英 伟达、台积电】等半导体公司(搜索和相关AlGC内容创作对GPU相关资本开支的拉动将提升半导体行业 收入与业绩)。我们推荐关注多模态大模型的应用场景如:D客服聊天机器人:技术加成下提升大数据分析和互动能力,多模态应用对
12、多种内容形式快速反应,海外 建议关注【谷歌】NAP】 (TwiIioJ ,国内建议关注【神州泰岳】【焦点科技】【宏景科技】【神州数码】 2)信息搜索与内容检索:信息检索效率大幅提升,检索范围覆盖面更广,海外建议关注【微软】IShiftPixyL 国内建议关注【三六零】【昆仑万维】3)商品与内容推荐:海外建议关注【Jasper】 (Shopify).国内建议关注【顺网科技】【蓝色光标】【工 人行】【值得买】【浙文互联】【中文在线】4)虚拟数字人:虚拟人垂类应用场景有望拓宽,海外建议关注【微美全息】【Unity,国内建议关注【芒 果超媒】【汤姆猫】【蓝色光标】【中文在线】【风语筑】【捷成股份】【奥
13、飞娱乐】【遥望科技】5)教育:推动个性化、差异化教育发展,海外建议关注【Quizlet】 Speak Coursera Duolingual, 国内建议关注【科大讯飞】【汉王科技】【传智教育】6)游戏设计:驱动原画设计、社交玩法创新,海外建议关注【Unity】(Roblox,国内建议关注【网易】 【完美世界】ChatGPT每日产业新闻点评0315更新:重磅! GPT-4正式发布,具备多模态和超越上一代的专业学术能力,谷歌开放人工智能语言 模型 PaLM APIGPT-4是OPenAl在扩大深度学习方面的最新里程碑。1) GPT-4是一个大型的多模态模型(接受图像和文 本输入,发出文本输出),虽
14、然在许多现实世界的场景中能力不如人类。2)但GPT4在各种专业和学术 基准上表现出人类水平的表现。GPT-4在事实性、可引导性以及合规性取得了有史以来最好的结果,并成 为OPenAl第一个能够提前准确预测训练的大模型。此外谷歌公司今日宣布开放其PaLMAPh让开发者能 够使用其最先进的Al语言模型之一:PaLM.该公司还推出了一些人工智能企业工具,称将帮助企业“通过 简单的自然语言提示生成文本、图像、代码、视频、音频等多种内容”。0313更新:多模态大模型GPT4本周或将发布,百度文心大模型3月16日上线微软多模态大模型GPTW或将在本周发布,微软德国首席技术官Andreas Braun在线下
15、活动中表示多模态 大模型GPT4即将在本周发布,将提供完全不同的可能性并且适用于所有语言,而微软在过去一周左右接 连发布了展示多模态的语言大模型论文Kosmos-I和VisuaIChatGPT,此前微软一直在测试和调整来自 OpenAI的多模态模型,而国内Al巨头百度也计划于3月16日14时发布类ChatGPT产品文心一言,相关 多模态大模型的垂直领域应用或将进一步得到开发C正如我们GPT4展望报告中提及的GPT4十大猜想,GPT4 未来可能会是多模态的具有思维链推理能力的大模型,标志着Al的智能涌现速度超越Scaling Law的提升 速度,生成式Al时代全要素生产率或可以重新加速上升。03
16、07更新:微软操作系统Windows 11宣布加入更多人工智能体验微软Windows系统和硬件总负责人PanoSPanay在CES 2023曾说过:“Al将彻底改变你在Windows上做 任何事情的方式,并透出微软正打造模糊云端和边缘界限、集成大* Al技术的全新操作系统。3月7日 微软宣布WindoWSIl将加入更多人工智能体验,如1) Al视频通话:眼神接触(EyeContact),背景效 果(BaCkgrOUndBIUr)、自动取景(Automatic Framing)和语音焦点(VOiCeFOCUS)等功能将增强用户体 验;2)语音访问应用:用户在Windows 11上中处理Word文档、在文件资源管理器中管理文件等;3) 开始菜单提供人工智能驱动的推荐内容来个性化用户的体验。我们预计微软或将联合OPenAl的大语言模 型更新现有的操作系统功能体验如文件搜索、邮件、助手等,而网传2024