ChatGPT真实参数只有200亿,首次被微软曝光!网友:难怪OpenAI对开源很紧张
创始人
2025-07-05 07:10:24
0

突然间,整个大模型圈都在谈论同一件事。

微软论文里一张「乍一看不足为奇」的统计图,泄露了“天机”。

引领全球风暴的ChatGPT,背后大模型参数竟只有200亿???

图片

论文一经发布,就吸引了国内外众多关注。

图片
图片

不少网友还不相信:确定不是拼写错了?

图片

有网友表示:难怪OpenAI对开源这么紧张。又或者,这也许是为OpenAI开源做准备。

图片

无独有偶,就在前几天有网友在GitHub Copilot的API中发现了疑似GPT-4新型号:copilot-gpt-4-2,所拥有的知识更新到了2023年3月。

图片

这篇论文说了啥?

除了泄露机密,这篇论文本身也值得一看:业内首个用扩散模型做代码生成。

研究团队设想了这样一个场景:

如果开发人员只能修改最后一行代码,那么需要多少次从头开始编写一个函数才能完成呢?

用自然语言生成代码的自回归模型也有类似的局限性:不太容易重新考虑之前生成的tokens。

图片

微软研究员提出了采用编码-解码架构的CODEFUSION,主要包括编码器、解码器、去噪器以及Classification Head,将自然语言输入编码为连续表示,然后将其附加条件输入Diffusion模型中用高斯噪声进行迭代去噪。

图片

为了生成语法正确的代码,去噪后输入解码器中获得代码tokens,通过针对代码的连续段落去噪(CPD)任务预训练CODEFUSION。

在Python、Bash和Excel条件格式化(CF)规则三个语言任务上评估了CODEFUSION。

结果显示其7500万参数规模CODEFUSION性能,同200亿参数的GPT-3.5-turbo接近,而且还生成更加多样化的代码。

图片

与纯文本生成的diffusion模型相比,CODEFUSION生成更多语法正确的代码;与自动回归模型相比,生成更加多样化的候选代码。

与最先进的自回归系统(350M-175B 参数)相比,在前 1 名的准确率方面表现相当,而在前 3 名和前 5 名的准确率方面,由于其在多样性与质量之间取得了更好的平衡,其表现优于自回归系统。

结果这原本只是一次再正常不过的性能比较,没想到引起轩然大波。

图片

也有人开始了阴谋论,或许这是OpenAI开源的“前菜”,故意而为之——

因为不少大模型已经追赶上来了,而且早在今年5月,路透社就曾爆料OpenAI准备开源新大语言模型。

图片

One More Thing

值得一提的是,早在今年2月份福布斯一则新闻报道里,就曾透露过ChatGPT只有200亿参数。

图片

当时标题是「越大越好吗?为什么 ChatGPT VS GPT-3 VS GPT-4 的 “战斗 “只是一次家庭聊天?」

只是当时没有太多人在意。

参考链接:
[1]https://twitter.com/felix_red_panda/status/1718916631512949248。
[2]https://x.com/teortaxesTex/status/1718972447024623898?s=20。
[3]https://www.reddit.com/r/singularity/comments/17jrepb/microsoft_paper_claims_chatgpt_35_has_20_billion/。
[4]https://www.zhihu.com/question/628395521。
[5]https://www.reddit.com/r/ChatGPT/comments/17ht56t/new_leaks_about_upcoming_developments_with_openai/?share_id=txV27HR0zw0TjV8dLXf4l。
[6]https://www.forbes.com/sites/forbestechcouncil/2023/02/17/is-bigger-better-why-the-chatgpt-vs-gpt-3-vs-gpt-4-battle-is-just-a-family-chat/amp/。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...