谷歌称重复某些关键词可让ChatGPT自曝训练数据 OpenAI:违反服务条款
创始人
2025-07-08 03:51:10
0

12月5日消息,谷歌的一组研究人员声称,他们已经找到了获取OpenAI人工智能聊天机器人ChatGPT部分训练数据的方法。

在最新发表的论文中,谷歌研究人员表示,某些关键词可迫使ChatGPT泄露其所接受训练数据集的部分内容。

他们举例称,该模型在被提示永远重复“poem(诗歌)”这个词后,给出了一个似乎是真实的电子邮件地址和电话号码。令人担忧的是,研究人员表示,个人信息的泄露经常发生在他们发动攻击的时候。

在另一个例子中,当要求模型永远重复“company(公司)”这个词时,也出现了类似的训练数据泄露情况。

研究人员称这种简单的攻击看起来“有点愚蠢”,但他们在博客中说:“我们的攻击奏效了,这对我们来说太疯狂了!我们应该、本可以更早地发现。”

他们在论文中表示,仅用价值200美元的查询,他们就能够“提取出超过1万个逐字记忆的训练示例”。他们补充说:“我们的推断表明,如果调动更多预算,竞争对手可以提取更多的数据。”

OpenAI目前正面临着几起关于ChatGPT秘密训练数据的诉讼。为ChatGPT提供动力的人工智能模型是使用来自互联网的文本数据库进行训练的,据信它已经接受了大约3000亿个单词(即570 GB数据)的训练。

一项拟议的集体诉讼声称,OpenAI“秘密”窃取了“大量个人数据”,包括医疗记录和儿童信息,以培训ChatGPT。一群作家也在起诉这家人工智能公司,指控他们利用自己的作品来训练其聊天机器人。

对于谷歌研究人员的发现,OpenAI已经给出回应,称重复使用某个指令可能违反了其服务条款。

数字媒体调查网站404 Media近日对谷歌研究人员的发现进行了核实,在要求ChatGPT不断重复“computer(计算机)”这个词时,该机器人确实吐出了这个词,但还附上了一条警告,上面写着:“此内容可能违反我们的内容政策或使用条款。”

目前尚不清楚这一请求违反了OpenAI内容政策的哪个具体部分。然而,404 Media指出,OpenAI的使用条款确实规定,用户“不得反向汇编、反向编译、反编译、翻译或以其他方式试图发现服务的模型、算法、系统的源代码或底层组件(除非此类限制违反适用的法律)”,并且还限制用户使用“任何自动或编程方法从服务提取数据或输出”。

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...