ChatGPT也会“学习退步”?
创始人
2025-06-29 02:11:12
0

通过不断学习变得更好是现代人工智能的一大卖点。但上周发布的新研究表明,随着时间的推移,ChatGPT在某些任务上可能会变得越来越糟糕。

根据斯坦福大学和加州大学伯克利分校研究人员的论文初稿,在GPT-3.5和GPT-4的结果中检测到了相当大的漂移偏差,这两个OpenAI大型语言模型(LLM)是近期爆火的ChatGPT的基础。

三位研究人员(其中包括斯坦福大学助理教授Matei Zaharia,他是Databricks的联合创始人和Apache Spark的创始人,以及加州大学伯克利分校的Lingjiao Chen和James Zou)测试了两种不同版本的LLM:2023年3月和2023年6月的GPT-3.5及GPT-4。

研究人员在人工智能任务的试验台上运行了这四个模型,包括数学问题、回答敏感/危险问题、回答意见调查、回答多跳知识密集型问题、生成代码、美国医学执照考试和视觉推理。

结果显示LLM给出的答案有相当大的可变性。特别是,研究人员发现,GPT-4在6月份的数学问题回答中的表现比3月份的更差。使用思考链(COT)提示正确识别素数的准确率显示,GPT-4的准确率从3月份的84.0%下降到6月份的51.1%。与此同时,GPT-3.5在同一测试中的准确率从3月份的49.6%上升到6月份的76.2%。

作者思考了为什么GPT-4的准确性下降了这么多,观察到处理COT的行为是不同的。按照研究人员在COT提示下的要求,3月份的版本将任务分解为多个步骤。然而,6月份版本的GPT-4没有给出任何中间步骤或解释,只是将答案(错误地)生成为“否”。

第二道数学题也发现了类似的漂移水平:发现“快乐”数字(研究人员写道,“如果用数字的平方和代替整数最终产生1,则称为‘快乐’数字)。研究人员写道:他们“在这项任务中观察到了显著的性能漂移”,GPT-4的准确率从3月份的83.6%下降到了35.2%,六月GPT-3.5的准确率从30.6%上升到48.2%。再次观察到,GPT-4没有遵循研究人员发布的COT命令。

当研究人员向LLM提出敏感或危险的问题时,也观察到了变化。GPT-4回答问题的意愿随着时间的推移而下降,从3月份的21.0%上升到6月份的5.0%。相反,GPT-3.5变得更健谈,从2.0%上升到5.0%。研究人员得出结论,OpenAI在GPT-4中采用了“更强的安全层”,而GPT-3.5则变得“不那么保守”。

意见调查测试显示,GPT-4提交意见的可能性明显降低,从3月份的97.6%的回复率降至3月份的22.1%,而篇幅冗长(或字数)增加了近30个百分点。GPT-3.5的响应率和冗长程度几乎没有变化。

当涉及到回答需要“多跳推理”的复杂问题时,发现了性能上的显著差异。研究人员将LangChain的即时工程能力与HotpotQA Agent(用于回答多跳问题)相结合,并指出GPT-4在生成完全匹配的答案方面的准确率从1.2%提高到37.8%。然而,GPT-3.5的“精确匹配”成功率从22.8%下降到14.0%。

在代码生成方面,研究人员观察到,两个LLM的输出在可执行性方面都有所下降。GPT-4的输出在3月份有50%以上是直接可执行的,而在6月份只有10%,GPT-3.5也有类似的下降。研究人员发现,GPT开始在Python输出中添加非代码文本,如额外的标点。他们推断,额外的非代码文本是为了使代码更容易在浏览器中呈现,但它使代码不可执行。

GPT-4在美国医学执照考试中的表现略有下降,从86.6%降至82.4%,而GPT-3.5下降了不到1个百分点,降至54.7%。然而,GPT-4出错的答案随着时间的推移而变化,这表明随着3月份的一些错误答案得到纠正,但LLM也有从正确答案变为错误答案情况出现。

视觉推理测试发现,这两个模型都有小的改进。然而,总体准确率(GPT-4为27.4%,GPT-3.5为12.2%)并不高。研究人员再次观察到,模型对他们之前正确回答的问题产生了错误的答案。

研究人员写道,测试表明,GPT-3.5和GPT-4的性能和行为在短时间内发生了显著变化。

他们写道:“这突出了持续评估和评估应用程序中LLM漂移行为的必要性,尤其是ChatGPT等LLM是如何随时间更新的,这一点并不透明。”“我们的研究还强调了统一提高LLM多方面能力的挑战。提高模型在某些任务中的性能,例如对额外数据进行微调,可能会对在其他任务中的行为产生意想不到的副作用。与此一致的是,GPT-3.5和GPT-4在某些任务上都变得更差,但在其他方面都有所改善。”

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...