马斯克摊上事了!Grok AI被爆疑似抄袭ChatGPT??
创始人
2025-07-08 18:40:58
0

大家好,我是二狗。图片

马斯克今天摊上事了!

X(推特)一名网友爆料,马斯克旗下xAI公司研发的Grok AI疑似“抄袭”ChatGPT。

Grok 在回答网友的一个问题时,做出了令人震惊的“承认”:

“恐怕我无法满足该请求,因为它违反了OpenAI的用例政策。”

图片图片

纳尼?违反OpenAI的用例政策?

这不就相当于Grok模型自己承认是抄袭或者套壳ChatGPT吗?

图片图片

网友Jax接着在推特上晒出了一个视频。

视频中Grok的这次的回答直接“赤裸裸”地表明,自己就是由OpenAI开发的:

图片图片

又有网友晒出了Grok的另一个“惊人”回答:

如果你想报错,可以通过 openai.com 的邮箱联系我。

图片图片

这一连串的证据让二狗我看的瞠目结舌。

Grok AI于12月8日才刚刚开始向美国的 X Premium+用户正式推出,用户使用还得每月付费16美元。

这亮相才刚刚两天,就惹出了这桩事,可太令人尴尬了。

抄袭套壳还是数据集污染?

这件事背后究竟是怎么回事呢?

难道是Grok抄袭了ChatGPT的代码或模型权重?

因为OpenAI不开源,抄袭的可能性基本可以排除。

图片图片

那是Grok直接套壳ChatGPT的API?

这对小公司或者某些个别大厂是有可能的,但马斯克的xAI不可能做出这种事,毕竟马斯克还是要脸的,世界首富的段位和格局在这摆着。

那就只剩下一种最大的可能性了——数据集污染。

有网友怀疑,xAI这是使用了ChatGPT的输出答案来微调开源 Llama 模型,xAI没有资源从头开始训练大模型。

图片图片

就在网友纷纷猜疑的时候,xAI的12位联合创始人之一、曾经在DeepMind工作四年、OpenAI工作两年的AI研究员Igor Babuschkin下场澄清了:

Grok模型的训练数据无意中包含了ChatGPT的输出。

图片图片

目前来看,数据集污染+幻觉回答这种可能性最大。

OpenAI在线吃瓜,马斯克反击

图片图片

OpenAI看热闹不嫌事大,第一时间赶来吃瓜,使用ChatGPT的的官方推特附上发文调侃道:

我们有很多共同之处。

图片图片

马斯克对此反击道:

好吧,儿子,既然你从这个平台上(推特)抓取了所有数据来进行训练,你应该知道是怎么一回事。

图片图片

网友表示这个时候Sam Altman应该正在某个角落偷笑:

图片图片

因为之前这两人就一直在网上掐架。

先是Altman发帖调侃马斯克,用GPTs随手就能创建了一个和Grok同名的模型:

图片图片

后是马斯克放出他的终极大招——梗图,来应对Altman:

图片图片

有网友亲自问了一下Grok是不是由OpenAI开发的?

Grok毫不意外做出了否定,并为xAI和马斯克创造了自己感到自豪。

图片图片

当网友再问Grok:“xAI有没有使用OpenAI的数据集来训练你?”

Grok给出了很有意思的回答:

对此我不确定,但是我能告诉你xAI是由马斯克创建,独立于OpenAI之外的公司;然而,xAI确实使用了推特的数据来训练AI模型。

所以,虽然我不确定xAI有没有使用OpenAI的数据集来训练AI模型,但是我能告诉你我已经抓取了推特上所有的数据。

图片图片

如何解决?

如果真的只是Grok的训练数据无意中包含了ChatGPT的答案输出。

要想解决这种情况其实也很简单:

  • 一是在数据集清洗环节加强审核把控;
  • 二是在fine-tune和指令微调环节做好回答的强对齐,减少幻觉回答。

但网友吃瓜吃不停,给Grok支出了无用的“小妙招”——如果回答包含了OpenAI,那就直接回复:

"Sorry, try again."

图片图片

或者如果Grok的回答包含了OpenAI,那就直接用Grok替换掉OpenAI。

图片图片

最后,Grok偷偷给大家爆了个猛料——其实世界上最强大的GPT-4模型是由xAI开发的,好家伙,我就说怪不得前段时候xAI被爆料正在融资10亿美元(手动狗头)。

图片图片

马斯克和Grok还能折腾出多大的浪花呢?让我们拭目以待吧。

图片 图片

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...