Open AI 发布OpenAI o1-preview和OpenAI o1-mini

chatgpt代充2024-09-13 23:49:3676

先做个广告：如需代注册帐号或代充值Chatgpt Plus会员，请添加站长客服微信：pingzi7749

Open AI的草莓大模型上线。

今日凌晨，Open AI 正式发布OpenAI o1-preview和OpenAI o1-mini。

OpenAI o1-预览版是用于解决难题的一系列新推理模型。根据官网介绍，它可以通过复杂的任务进行推理，并解决比以前的科学、编码和数学模型更难的问题。

就像人类一样，o1-preview在做出反应之前花更多时间思考问题。通过训练，他们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在官方测试中，OpenAI o1在回答问题之前会先思考，在回应用户之前会产生一个很长的内部思考链。o1-预览版在物理、化学和生物学方面具有挑战性的基准任务上的表现超过了人类博士生的水平。在数学和编码方面表现出色，在国际数学奥林匹克（IMO）资格考试中，GPT-4o 只正确解决了 13% 的问题，而它的得分为 83%。他们的编码能力在竞赛中得到评估，并在 Codeforces 竞赛中达到了第 89 %。

作为早期模型，它尚不具备 ChatGPT 的许多有用功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o 在短期内将更加强大。

但对于复杂的推理任务来说，尤其是科学、编码、数学和类似领域的复杂问题，这些增强的推理能力可能特别有用。例如，医疗保健研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 生成量子光学所需的复杂数学公式，所有领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

这是一个重大进步，代表了人工智能能力的新水平。

OpenAI o1-mini，这是一种经济高效的推理模型，擅长 STEM，尤其是数学和编码。

o1-mini 在 STEM 方面表现出色，尤其是数学和编码，在 AIME 和 Codeforces 等评估基准上几乎与OpenAI o1的性能相匹配。预计 o1-mini 将成为一种更快、更具成本效益的模型，适用于需要推理而无需广泛的世界知识的应用程序。

而且o1-mini的价格比 OpenAI o1-preview 便宜 80%。ChatGPT Plus、Team、Enterprise 和 Edu 用户可以使用 o1-mini 作为 o1-preview 的替代品，具有更高的速率限制和更低的延迟。

o1 等大型语言模型是在大量文本数据集上进行预训练的。虽然这些高容量模型具有广泛的世界知识，但对于现实世界的应用程序来说，它们可能既昂贵又缓慢。相比之下，o1-mini 是一个较小的模型，针对预训练期间的 STEM 推理进行了优化。使用与 o1 相同的高计算强化学习 (RL) 管道进行训练后，o1-mini 在许多有用的推理任务上实现了可比的性能，同时显着提高了成本效率。

在需要智能和推理的基准上进行评估时，o1-mini 与 o1-preview 和 o1 相比表现良好。然而，o1-mini 在需要非 STEM 事实知识的任务上表现较差。

数学：在高中 AIME 数学竞赛中，o1-mini (70.0%) 与 o1 (74.4%) 具有竞争力，同时价格便宜得多，并且表现优于 o1-preview (44.6%)。o1-mini 的分数（约 11/15 题）使其跻身美国高中生前 500 名左右。

编码：在Codeforces竞赛网站上，o1-mini达到了1650 Elo，再次与o1（1673）竞争，并且高于o1-preview（1258）。该 Elo 分数使该模型在 Codeforces 平台上竞争的程序员中处于大约 86% 的位置。o1-mini 在 HumanEval 编码基准和高中级别网络安全夺旗挑战 (CTF) 中也表现良好。

STEM：在一些需要推理的学术基准上，例如 GPQA（科学）和 MATH-500，o1-mini 的表现优于 GPT-4o。o1-mini 在 MMLU 等任务上的表现不如 GPT-4o，并且由于缺乏广泛的世界知识而在 GPQA 上落后于 o1-preview。

人类偏好评估：人类评分者在各个领域中具有挑战性的开放式提示上对 o1-mini 与 GPT-4o 进行比较，使用的方法与o1-preview 与 GPT-4o 比较相同。与 o1-preview 类似，o1-mini 在推理密集型领域中优于 GPT-4o，但在以语言为中心的领域中不如 GPT-4o。