openAI上线了他们最新的模型 GPT-4 Turbo,该模型在写作、数学、逻辑推理和编码方面的能力都大大提升

chatgpt代充2024-04-13 13:28:51106

先做个广告:如需代注册帐号或代充值Chatgpt Plus会员,请添加站长客服微信:pingzi7749

就在前两天,openAI上线了他们最新的模型 GPT-4 Turbo,该模型在写作、数学、逻辑推理和编码方面的能力都大大提升,在著名的chatbot-arena-leaderboard 对战榜上有开始重回第一
为了评估GPT-4的效果,直接新开源了自己的评估框架 simple-evals,该评估框架强调:
1. 使用 Fewshot、CoT 设置等来进行评估
2. 模型评测对 「Prompt」敏感,并且最近的一些书籍或库中的评估方法存在显著的差异,如通过 Role-play 或 Fewshots,这些方法不适合评估指令模型
通过简单的提示或 CoT 的方式适合评估指令/聊天模型,OpenAI 认为这种提示技术可以更好地反映模型在实际使用中的性能,该评估框架包括如下几种指标:1. MMLU:多任务理解 2. MATH:数学能力 3. GPQA:问答能力 4. DROP:推理 5. MGSM:思维链 6. HumanEval:评估代码能力 7. MMMU:专家 AGI
该框架实现了 OpenAI 和 Claude 的评估采样接口,可以通过 python -m simple-evals.demo 运行评估。
最终结果表明,gpt-4-turbo 重新回到第一名水平 其中 MATH、DROP(数学和推理)、GPQA(问答)、DROP 能力有了都有了较为明显的提升

最新的模型已经在付费版的 ChatGPT 中可使用,有意思的是:

1. 速度提升了体感 1.5 倍

2. 同时更加简洁且勤奋
同时该框架还将各种评估指标的论文也给出来,看起来是对现在业界的各种 “野鸡” 评估方法感到不满意.... 亲自下场
开源界又可以进步一波了~
参考:
1.https://twitter.com/OpenAI/status/1778574613813006610
2.https://twitter.com/tuturetom/status/1778794132514980260

本文链接:https://www.vipbxr.vip/GPT5_342.html

GPTs机器人GPTs机器人AI机器人

相关文章

网友评论