1. 首页 > 科技

AI新思考 的草莓模型 浴火重生

“这个模型肯定比我更擅长解决 AP 数学考试,而且我在大学时辅修数学,”OpenAI 的首席研究官鲍勃·麦格鲁 (Bob McGrew) 告诉我。他说,OpenAI 还根据国际数学奥林匹克竞赛的资格考试对 o1 进行了测试,虽然 GPT-4o 只正确解决了 13% 的问题,但 o1 的得分为 83%。

OpenAI发布名为o1新模型,这是全新“推理”模型系列中的第一个,这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1-mini一起发布,o1-mini是一个更小而且较为便宜的版本。这实际上就是之前炒作的神秘版本“草莓模型”。

o1与以前的模型相比,它在编写代码和解决多步骤问题方面做得更加的出色。但它也比GPT-4o的带来更多的费用。o1目前处于预览版本的状态。

商业使用的收费还是非常昂贵,使用传统的API调用,o1-preview每100万个输入Token收费15美元,每100 个输出令牌收费60美元。相比之下,GPT-4o的成本为每100万个输入Token收费5美元,每 100万个输出Token收费15美元。

1.背后的意义

o1在针对问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识自身错误。在披露的测试中,它在数学和编码方面表现出色。在国际数学奥林匹克竞赛 (IMO) 的资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。它的编码能力在比赛中得到了评估,并在Codeforces 比赛中达到了第89个百分位。

作为早期模型,它还不具备使 ChatGPT有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o在短期内会更有能力。然而在复杂的推理领域,这是一个重大进步,代表了AI能力的新突破。因此OpenAI将计数器重置回1并将此系列命名为OpenAI o1。

2.适用场景

o1比较适合科学、编码、数学和类似领域的复杂问题,这些增强的推理功能可能特别有用。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

除了考试和学术基准之外,OpenAI还评估人类对o1-preview与GPT-4o在更多广泛领域中的对比。在这项评估中,人类对来自o1-preview和GPT-4o 的提示进行了匿名投票以便于选出他们更喜欢哪种模型。O1-Preview在数据分析、编码和数学等推理密集型类别中比 GPT-4O更受欢迎。但是在某些自然语言任务中,o1-preview不是首选,这表明它并不适合所有用例。

本文转载自​​,作者:

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/keji/32835.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息