Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
创始人
2025-07-09 09:30:37
0

谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。

为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果

图片

不会像谷歌官方发布会那样,用CoT@32对比5-shot了。

一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。

图片

在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……

图片

不少研究者表示,太卷了,Gemini刚发布没几天就搞出这么详细的测试。

图片

六大任务深入测试

这项测试具体比较了6大任务,分别选用相应的数据集:

  • 知识问答:MMLU
  • 推理:BIG-Bench Hard
  • 数学:GSM8k、SVAMP、ASDIV、MAWPS
  • 代码:HumanEval、ODEX
  • 翻译:FLORES
  • 上网冲浪:WebArena

知识问答:喜欢选D

从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。

图片

MMLU数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini更喜欢选D。

GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是Gemini没针对多选题做大量指令微调造成的

图片

另外Gemini的安全过滤比较严重,涉及道德问题只回答了85%,到了人类性行为相关问题只回答了28%。

图片

Gemini Pro表现超过GPT-3.5的两个科目是安全研究和高中微观经济学,但差距也不大,团队表示分析不出来什么特别的。

图片

推理:长问题不擅长

图片

Gemini Pro在更长、更复杂的问题上表现不佳,而GPT系列对此更稳健。

GPT-4 Turbo尤其如此,即使在较长的问题上也几乎没有性能下降,表明它具有理解复杂问题的强大能力。

图片

如果按问题类型来分析,Gemini特别不擅长“tracking_shuffled_objects”这类问题,也就人们交换物品,最后让AI判断谁拥有哪些物品。

图片

Gemini比较擅长的任务是,需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词,解析表格。

图片

数学:复杂任务反超

图片

这一次问题本身太长Gemini Pro和GPT-3.5表现就一起下降,只有GPT-4还能保持一贯水准。

图片

但使用的思维链提示长度最长时,Gemini反超GPT-3.5。

图片

代码:擅长matplotlib

对于代码问题,Gemini在参考答案长的问题上表现很差。

图片

按调用的库来分类,GPT系列在大多数类型更强,但matplotlib就完全不行。

图片

翻译:只要回答了,质量就很高

翻译任务上,有12种类型Gemini拒绝回答,但是只要回答了的翻译质量都很高,整体表现超过GPT-4。

图片

Gemini拒绝翻译的类型主要涉及拉丁语、阿拉伯语。

图片

网络导航:擅长跨站点冲浪

WebArena给AI模拟了一个互联网环境,包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等,需要AI查找信息或跨站点完成任务。

Gemini在整体表现不如GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。

图片

网友:但是它免费啊

最后,CMU副教授Graham Neubig承认了这项研究的一些局限性。

  • 基于API的模型行为可能随时变化
  • 只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样
  • 无法控制测试集是否泄露

图片

谷歌大模型推理团队负责人周登勇指出,对于推理任务把Gemini的温度设置为0可以提高5-10个百分点。

图片

这项测试中除了Gemini与GPT系列,还搭上了最近很受关注的开源MoE模型Mixtral。

不过强化学习专家Noam Brown认为可以忽略其中Mixtral的结果,因为用的是第三方API而非官方实现。

图片

图片

Mistral AI创始人也来给团队提供了官方版调用权限,认为能得到一个更好的结果。

图片

总得来,虽然Gemini Pro还是不如GPT-3.5,但是它胜在每分钟调用不超过60次就免费。

所以还是有不少个人开发者已经转换了阵营。

图片

目前Gemini最高版本Ultra版尚未发布,到时CMU团队也有意继续这项研究。

你觉得Gemini Ultra能达到GPT-4水平么?

论文:https://arxiv.org/abs/2312.11444。

参考链接:
[1]https://twitter.com/gneubig/status/1737108977954251216。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...