openAI上线了他们最新的模型 GPT-4 Turbo，该模型在写作、数学、逻辑推理和编码方面的能力都大大提升

chatgpt代充2024-04-13 13:28:51116

先做个广告：如需代注册帐号或代充值Chatgpt Plus会员，请添加站长客服微信：pingzi7749

就在前两天，openAI上线了他们最新的模型 GPT-4 Turbo，该模型在写作、数学、逻辑推理和编码方面的能力都大大提升，在著名的chatbot-arena-leaderboard 对战榜上有开始重回第一

为了评估GPT-4的效果，直接新开源了自己的评估框架 simple-evals，该评估框架强调：

1. 使用 Fewshot、CoT 设置等来进行评估

2. 模型评测对「Prompt」敏感，并且最近的一些书籍或库中的评估方法存在显著的差异，如通过 Role-play 或 Fewshots，这些方法不适合评估指令模型

通过简单的提示或 CoT 的方式适合评估指令/聊天模型，OpenAI 认为这种提示技术可以更好地反映模型在实际使用中的性能，该评估框架包括如下几种指标：1. MMLU：多任务理解 2. MATH：数学能力 3. GPQA：问答能力 4. DROP：推理 5. MGSM：思维链 6. HumanEval：评估代码能力 7. MMMU：专家 AGI