环球视点!刷题成绩达哈佛标准,GPT-4 要让谷歌工程师熬夜了
2023-03-15 20:19:22 动点科技

当地时间 3 月 14 日,OpenAI 携 GPT-4 来了!随着 ChatGPT 聚焦全球目光,这一次的产品发布自然也备受关注。

据了解,OpenAI 花了 6 个月时间使 GPT-4 更安全、更具一致性。在内部评估中,与 GPT-3.5 相比,GPT-4 对不允许内容做出回应的可能性降低 82%,给出事实性回应的可能性高 40%。GPT-4 引入了更多人类反馈数据进行训练,不断吸取现实世界使用的经验教训进行改进。

作为一款所谓的 " 高体验、强能力的先进 AI 系统 ",在官方演示中,GPT-4 几乎就只花了 1-2 秒的时间,识别了手绘网站图片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。


(相关资料图)

除了普通图片,GPT-4 还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点。正因此,OpenAI 官方称,GPT-4 是 OpenAI 扩展深度学习的最新里程碑。

值得一提的是,GPT-4 虽然于 14 日才正式公开,但早在一个月前,微软的搜索引擎必应就已经在 GPT-4 上运行。微软表示," 如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过 GPT-4 的早期版本。"

多模态学习的最新成果

OpenAI 宣称,GPT-4 是一个大型多模态(接受图像和文本输入,发出文本输出)模型,我们首先需要弄清楚,何为模态?

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

多模态学习从 1970 年代起步,经历了几个发展阶段,在 2010 后全面步入深度学习阶段。

OpenAI 表示,在过去两年里,他们重构了整个深度学习堆栈,并与微软 Azure 合作,共同设计了一台超级计算机。一年前,OpenAI 训练了 GPT-3.5,作为整个系统的首次 " 试运行 "。

目前,GPT-4 可以可以让用户指定任何视觉或语言任务,然后生成文本输出(自然语言、代码等),给定的输入包括带有文字和照片的文件、图表或屏幕截图,GPT-4 表现出与纯文本输入类似的能力。比如图表分析、总结概括。

强悍的学习力

虽然在许多现实场景中 AI 仍不如人类,但 GPT-4 在许多专业和学术基准上都呈现了人类水平的表现。以美国 BAR 律师执照统考为例,GPT3.5 可以达到 10% 水平,GPT-4 可以达到 90% 水平。在 GPT-3.5 版本模型下,它的 SAT 成绩只能排倒数 10% 的水平,然而 GPT-4 模型可以超越 90% 考生的水平。如果仅以分数作为衡量,GPT-4 已经差不多达到了美国顶尖名校的入学标准。

不仅如此,GPT-4 的语言能力同样令人惊叹。OpenAI 称,在测试的 26 种语言中,GPT-4 在 24 种语言方面的表现均优于 gpt-3.5 等其他大语言模型的英语语言性能。其中 GPT-4 的中文能够达到 80.1% 的准确性,而 gpt-3.5 的英文准确性仅为 70.1%,GPT-4 英文准确性提高到了 85.5%。

在 API 方面,GPT-4 还开放了一个使用功能,允许修改 " 系统提示 "。通过修改系统提示,GPT-4 就可以展现出更多样的性格,而不会像先前那样一板一眼。

与此同时,OpenAI 正在开源其软件框架 OpenAI Evals,用于创建和运行评估 GPT-4 等模型的基准,同时逐个样本检查其性能。用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。

不足之处

大模型的发展趋势,除了更好的性能表现外,关键的突破就是多模态,GPT-4 此次在多模态方面相比前代已经进步了不少。然而,GPT-4 目前只能输入图片内容,但是输出的仍是文字。图片、视频等跨模态的生成形式,GPT-4 尚不具备。

而且,与前一代一样,GPT-4 是基于 2021 年 9 月之前的数据训练的,所以 GPT-4 对于 2021 年 9 月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI 表示:"GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。"

OpenAI 承认,GPT-4 与早期的 GPT 模型具有相似的局限性,它仍然不完全可靠,可能会存在推理错误。不过 GPT-4 相对于以前的模型已经有比较显著的改善了。OpenAI 对不同模型进行了内部对抗性真实性测试,具体来看,进行了涵盖学习、技术、写作、历史、数学、可惜等九类测试,准确度为 1.0 意味着模型的答案被判断为与人类理想回答一致。

目前,GPT-4 没有免费版本,仅向月订阅费 20 美元的 ChatGPT Plus 用户及企业和开发者开放。ChatGPT Plus 用户将获得有使用上限的 GPT-4 权限。OpenAI 将根据实际需求和系统性能调整确切的使用上限,但预计容量将受到严重限制。

猜你喜欢