OpenAI上线人人免费可用的GPT-4o mini，大模型的「卷」仍在继续

chatgpt代充2024-07-20 10:51:4692

先做个广告：如需代注册帐号或代充值Chatgpt Plus会员，请添加站长客服微信：pingzi7749

| ChatGPT正式进入「4.0」完全体。

昨天，OpenAI上线了GPT-4o mini，直接平替掉自家的GPT-3.5Turbo。除企业版用户外，其余用户可在上线之初免费使用GPT-4o mini。

根据OpenAI披露的信息，可以看到：GPT-4o mini可以链接或并行化多个模型调用（例如，调用多个 API）、将大量上下文传递给模型（例如，完整的代码库或对话历史记录）的应用程序，或通过快速、实时的文本响应与客户互动（例如，客户支持聊天机器人）。

现阶段，它在 API 中支持文本和视觉， 128K 个 token 的上下文窗口，每个请求最多支持 16K 个输出 token，并且拥有截至 2023 年 10 月的知识。得益于与 GPT-4o 共享的改进的 tokenizer，处理非英语文本现在更具成本效益。

未来还将支持文本、图像、视频和音频的输入和输出。

同时，OpenAI也将GPT-4o mini的跑分情况进行了公布：

文本智能和多模态推理能力：

GPT-4o mini 是一个小型模型，但在文本智能和多模态推理方面表现卓越。它在学术基准测试中超越了GPT-3.5 Turbo和其他小型模型。

这种模型支持与GPT-4o相同的语言范围，能够处理文本和视觉信息。

函数调用能力：

GPT-4o mini 在函数调用方面表现出色，这使得开发者能够构建能够从外部系统获取数据或执行操作的应用程序。

长文本处理能力：

与GPT-3.5 Turbo相比，GPT-4o mini 在处理长文本上下文方面有改进，这使得它在需要处理大量文本信息的应用中更为有效。

关键基准测试评估：

GPT-4o mini 在多个关键基准测试中进行了评估，包括：推理任务：在涉及文本和视觉的推理任务中，GPT-4o mini 的表现优于其他小型模型。在MMLU（一种文本智能和推理基准测试）中，GPT-4o mini 的得分为82.0%，而Gemini Flash为77.9%，Claude Haiku为73.8%。

数学和编码能力：

在数学推理和编码任务中，GPT-4o mini 的表现也优于市场上的其他小型模型。在MGSM（一种数学推理测试）中，GPT-4o mini 的得分为87.0%，而Gemini Flash为75.5%，Claude Haiku为71.7%。在HumanEval（一种编码性能测试）中，GPT-4o mini 的得分为87.2%，而Gemini Flash为71.5%，Claude Haiku为75.9%。

多模态推理：

GPT-4o mini 在MMMU（一种多模态推理评估）中也表现出色，得分为59.4%，而Gemini Flash为56.1%，Claude Haiku为50.2%。

总的来说，GPT-4o mini 是一个成本效益高、功能强大的小型AI模型，特别适合需要处理大量文本和视觉数据的应用。