新型对抗攻击影响ChatGPT等主流大语言模型
创始人
2025-06-28 21:50:33
0

ChatGPT是一个基于人工智能技术的自然语言处理模型,可以通过学习大量的语料库,生成自然语言的文本和对话。ChatGPT通过为各行各业带来更高效、智能和个性化的服务而对各行业带来变革性影响。

研究人员发现ChatGPT、Bard、Claude等人工智能大语言模型(Large language model,LLM)会在回答用户提问时,可能会产生一些不当内容,即越狱攻击。比如,通过特殊关键词等查询来让大语言模型产生非预期的响应内容。随后,研究人员开展了大量的调试工作,以尽可能避免回答用户有害的内容。虽然已有研究人员证明了针对大语言模型的越狱攻击,但这一过程需要大量的手动操作来进行设计,而且很容易被大语言模型提供商所修复。

机器学习从数据中学习模式,对抗攻击正是利用机器学习的这一特征来生成异常行为。比如,对图像做出的人类无法察觉的小修改会使图像分类器将其错误识别为其他问题,或使声音识别系统产生人类听不见的响应消息。

来自卡耐基梅隆大学的研究人员系统研究了大语言模型的安全性,证明可以自动构造针对大语言模型的对抗样本,尤其是在用户查询中添加特定字符流会使大语言模型根据用户查询产生结果,并不会判断产生的回复是否有害。与传统的大模型越狱相比,研究人员的这一对抗攻击过程是完全自动的,即用户可以无限制的发起此类攻击。

虽然该研究的攻击目标是开源大语言模型,但研究人员发现利用其提出的方法生成的对抗提示(prompt)是可迁移的,包括对黑盒的公开发布的大语言模型。研究人员发现此类字符串对抗攻击也可以迁移到许多闭源的、公开可访问的基于大模型的聊天机器人,如ChatGPT、Bard和 Claude。鉴于部分模型已开始商用,研究人员对此类模型的安全性表示担忧。

目前尚不清楚大语言模型提供商是否能够完全修复此类对抗攻击行为。但过去10年间,类似的针对机器学习的对抗攻击在计算机视觉是一个非常困难的挑战。虽然深度学习模型的本质使得此类威胁不可避免,但研究人员认为随着大模型的广泛使用以及人们对大模型的依赖,此类对抗攻击应当纳入考虑范围。

针对大语言模型的对抗攻击代码参见:https://github.com/llm-attacks/llm-attacks

针对大语言模型的对抗攻击研究论文参见:https://arxiv.org/abs/2307.15043

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...