打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉
创始人
2025-07-12 11:31:48
0

GPT-4变懒的问题,又有新进展。

就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!

图片图片

关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:

完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。

对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。

图片图片

但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加了,但是很多都是车轱辘话,干正事依旧摆烂。

他让ChatGPT把一些文本翻译成17种语言,结果叽里呱啦说了一堆就是不翻译。

图片图片

为了消除个体差异,有网友用数据集测试了新的ChatGPT,结果……

新版反而更懒了?

这位网友用GitHub上开源的一套“lazy benchmark”测试了0125(24年1月最新版)和1106(23年11月的上一版)GPT-4模型,发现新版甚至还不如以前,变得更懒了。

图片图片

这个测试数据集包含了与代码相关的任务,用正确完成的比例间接反应“懒惰”程度,完成率越高说明“惰性”越小。

结果,对于其中的代码比较(Unified diffs)任务,旧版能完成的比例尚且超过了一半,为57%,新版的完成率却仅有44%,降低了近四分之一。

图片图片

直观感受上,也有人发现ChatGPT的“懒惰”变本加厉了——

以前就算偷懒至少还会糊弄一下,给出个大概的框架让用户自行补充,现在直接就是摆烂说自己干不了。

图片图片

而针对网友们的这番发现,也有人给出了锐评:

几周之前奥特曼就说过GPT-4表现变好了,但是有人感觉到差别吗?

图片图片

这次,关于GPT-4变懒的原因,以及到底采用了什么优化策略,奥特曼也未做进一步说明。

“土办法”可降低惰性

不过,之前的一项研究表明,GPT-4的惰性可能与时间相关,这一结论与GPT-4“变懒”的现象出现在年末的12月相吻合。

图片图片

按照这一理论,新年伊始,模型的表现的确会有所提升,但似乎解释不了表现不升反降的现象。

不过,网友们也总结了一些“土办法”,能在一定程度上降低ChatGPT的惰性。

比如告诉它“我没有手指”,就能得到相对完整的代码,而不是一段段碎片。

图片图片

又或者,告诉ChatGPT自己会“给小费”,也能激发它的工作动力。

甚至有人专门针对“小费”的金额进行了研究,发现10美元的性价比是最高的。

图片图片

那么,你觉得ChatGPT是变好了还是更懒了?

参考链接:
[1]https://twitter.com/sama/status/1754172149378810118

[2]https://aider.chat/docs/benchmarks-0125.html

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...