斯坦福大学研究发现,AI 聊天机器人 ChatGPT 的表现很不稳定
创始人
2025-07-01 00:40:47
0

9 月 7 日消息,斯坦福大学的一项新研究发现,热门生成式人工智能(AI)聊天机器人 ChatGPT 的能力在几个月内有所波动。

斯坦福大学的团队评估了 ChatGPT 在几个月内如何处理不同的任务。他们发现,ChatGPT 的能力随时间的推移而出现了不一致。目前,ChatGPT 有两个版本 —— 免费的 GPT-3.5 模型和更智能、更快速的付费 GPT-4 版本。 研究人员发现,GPT-4 在 3 月份能够有效地解决数学问题,识别质数的准确率为 97.6%。三个月后,其准确率下降到了 2.4%。而另一方面,GPT-3.5 却变得更好,从 7.4% 的准确率提高到了 86.8%。

研究人员还注意到,在编写代码和视觉推理方面也有类似的波动。斯坦福大学计算机科学教授 James Zou 称:“当我们调整一个大型语言模型来提高它在某些任务上的表现时,那可能会有很多意想不到的后果,可能会损害这个模型在其他任务上的表现…… 这个模型回答问题的方式有各种各样的相互依赖性,这可能导致我们观察到的一些恶化行为。”

研究人员认为,结果并不能真正反映 ChatGPT 性能的准确性状态,而是显示了微调模型带来的意外后果。本质上,当修改模型的一部分来改善一个任务时,其他任务可能会受到影响。为什么会这样很难确定,因为没有人知道 ChatGPT 是如何运作的,而且它的代码也不是开源的。

随着时间的推移,研究人员注意到,ChatGPT 的回答不仅变得不太准确,而且还停止了解释其推理过程。

由于 ChatGPT 的运作方式,要研究和衡量它的表现可能很困难,这项研究强调了观察和评估驱动 ChatGPT 等工具的大型语言模型(LLM)性能变化的必要性。该研究已经在 arXiv 上发布,并正在等待同行评审,IT之家附链接在此。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...