OpenAI发布全新o1系列：AI推理能力的革命性突破

chatgpt代充2024-09-13 12:34:2767

先做个广告：如需代注册帐号或代充值Chatgpt Plus会员，请添加站长客服微信：pingzi7749

刚刚，OpenAI无预警推出了新模型：o1系列。这款新模型能够进行复杂的通用推理，每次回答都需花费更多时间进行深入思考。

相比之前的GPT-4o，o1在解决高难度问题时表现显著提升。例如，在博士级别的物理问题测试中，GPT-4o仅取得了59.5分，而o1模型一举获得92.8分，达到了“优秀”水平。

没错，传说中的「草莓」终于正式登场！

CEO奥特曼：新范式的开始

CEO奥特曼称o1系列开启了人工智能的新范式，具备通用复杂推理的能力。具体来说，o1是OpenAI首个通过强化学习训练的模型。在输出结果之前，它会生成一条长思维链，以此增强推理能力。换句话说，思维链越长，o1的思考越深入，推理表现越出色。

o1的实力

o1的表现有多强？奥特曼给出了答案。在2024年国际信息学奥林匹克竞赛（IOI）的测试中，o1的微调版本在50次尝试条件下取得了213分，跻身人类选手的前49%。如果允许其进行10000次尝试，它能获得362.14分，超越金牌门槛。

此外，o1在编程比赛Codeforces中排名前89%，在美国数学奥林匹克预选赛中跻身前500名，展示出强大的推理和计算能力。

与GPT-4o相比，o1在多学科的表现都有所提升。

o1系列型号

OpenAI的o1系列分为三个型号：

OpenAI员工常用“系统1”和“系统2”的思维模式来解释o1系列与以往模型的区别。连长期休假的总裁Brockman也为此“诈尸”回归。

强化学习与思维链

思维链提示方法的原作者Jason Wei指出，o1不是单纯依赖提示，而是通过强化学习训练，提升链式思维能力。它能像人类一样将复杂问题拆解为多个简单步骤、识别并纠正错误、尝试不同的方法。

AI能力新天花板

通过强化学习，o1模型逐渐完善自己的思维过程，学会尝试不同策略并识别错误。尽管o1尚未具备联网搜索和上传文件等功能，但在复杂推理任务上已经取得了显著进步。OpenAI表示，o1代表了AI技术的最高水平。

思维链的示例

在编写Bash脚本的任务中，GPT-4o会直接动手编写代码，可能得到错误结果。

而o1-preview则先复述问题，拆解任务，列出方法步骤，最终确保一次性正确完成代码。

o1可以帮助医疗研究人员注释细胞测序数据，帮助物理学家生成复杂公式，或帮助开发人员构建和执行多步骤工作流程。

人类专家的测试

OpenAI邀请了一些专家学者试用o1模型，量子物理学者Mario Krenn展示了GPT-4o无法解决的问题，而o1-preview则成功完成计算。

未来发展方向

目前o1的推理时间为几秒至十几秒，但OpenAI的目标是让未来版本花费数小时、数天甚至数周来思考，尽管推理成本会增加，但这种深入思考有望带来突破性发现。

谁可以访问o1？

ChatGPT Plus和Team用户可在几个小时内体验o1系列。发布时，o1-preview限制为每周30条消息，o1-mini则是每周50条。API访问将优先开放给Tier 5用户（在OpenAI API上花费超过1000美元的用户）。

快去打开ChatGPT，看看你是不是第一批吃到“草莓”的人吧！

参考链接：

https://openai.com/o1/

https://x.com/polynoamial/status/1834280155730043108

GPT-5.0怎么用？新手到高手的完整指南（附免费/付费功能对比）