ChatGPT抢走了数据!编程语言排行榜,没法做了!
创始人
2025-07-09 09:30:44
0

撰稿 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

提及编程语言排行榜,很多人都能想到Tiobe、RedMonk、Stack Overflow等,基本上它们更新的频率也相对固定。但最近,这家号称编程语言榜单天花板的RedMonk似乎“放鸽子”了。

RedMonk一般一年发布两次榜单,上次更新的榜单是在5月,按惯例第二次发布应该是在今年的11月,但今年却迟迟没有动作。

今日,官网终于公开了没有发布语言排行榜的原因:他们之前从Stack Overflow和Github上获取到的样本数量大大减少,已经显著影响到榜单排名的评估!背后的罪魁祸首,竟是AI编程助手!

一、RedMonk排名离不开社区样本

根据官方介绍,RedMonk通过追踪编程语言在GitHub和Stack Overflow上的代码使用情况与讨论数量,统计进行分析后进行排序,进而深入了解潜在的语言采用趋势。

图片图片

具体讲,RedMonk 榜单的数据收集方式包含两部分:使用GitHub Archive作为数据源对GitHub数据进行分析;Stack Overflow部分则直接使用其提供的实用工具 data explorer。

具体排序算法官方也给出较详细的介绍,这里不再赘述。

图片图片

二、ChatGPT推迟了编程榜单的进行

今年大家都见证了一个增长奇迹:ChatGPT推出后,两个月就做到了一个亿的用户。

1.Stack Overflow首当其冲

随后,Stack Overflow流量下降的速度开始陡生,以致于其CEO宣布对数据获取方开始收费的决定。

Stack Overflow 的网站访问量显著下滑到原来的一半,不仅如此,还有分析师指出“用户花在 Stack Overflow 上的时间比去年同期下降了 40%,比此前网站峰值期下降了约 2 亿小时”。

图片图片

此外,Stack Overflow在网站上的问题和答案也减少了五成,投票也减少了。原因也很明显,开发人员已经可以即时向人工智能助手提问,并在上下文中给出答案,而无需再去Stack Overflow中查询答案。

那么由Stack Overflow提供的公共数据集的实用性的价值就会大打折扣。

图片图片

上图是Stack Overflow 上使用排名前20种编程语言标签的问题数量,可以看出比前一时期减少了近20%。这还只是是RedMonk在ChatGPT爆火之后第一次完整地运行这些数字,粗略查询下整年的变化,就会发现结果更加明显。

2.Github同样也没有摆脱数据下降的影响

RedMonk对于Stack Overflow数据的下降是有预料到的,但令其万万没没想到的是,Github也被AI代码助手打击到了,数据上也出现了非常严重的异常。

Redmonk使用的数据集是BigQuery上的公共数据集,为此,Redmonk会向谷歌和GitHub团队询问了数据是如何提取的,以及是否在内部数据中看到了类似的变化。

“得到的结果非常意外,我们从GitHub Archive中看到的数据显示,与2022年下半年PR相比,2023年上半年的拉取请求下降了约25%。”

ChatGPT写代码能力太强了,后果很严重。各种Copilot的出现,已经严重影响到了编程问答社区的提问数量。样本量的减少,意味着RedMonk赖以进行的排名变化统计似乎面临着不小的挑战,因为这些样本数据似乎已经不足以完全、真实地反映语言的受欢迎程度了。

三、下一步,编程排行榜怎么办

因此,RedMonk无奈地表示,基于人工智能的代码助手的出现和兴起已经影响了RedMonk语言排名的数据。

随着问题和知识共享从公共的社区论坛转移到私人的AI聊天工具,他们从公开数据中确定有意义趋势的能力也将无限期地改变。

接下来,RedMonk会继续跟踪这些趋势,并确定样本量的变化将如何影响他们进行排名,同时预告2024年1月发布新榜单。

写在最后:新的数据霸主正在诞生

大模型时代的到来,已经在慢慢改变人们原来的互联网习惯。以前大家遇到问题,可能想到的是访问门户、访问社区,而生成式AI爆发后,取而代之的是各种“ChatGPT”的私人聊天界面。

而由此带来的,就是人机交互数据的源头发生了迁移。知识问答社区的形态又会发生怎样的改变?会不会朝着“弱问答、轻社交”的方向演进?又或者是其他哪些方向?

再比如依赖这些数据的下游企业,又该如何适应新的数据生产霸主?

这些都是一个个亟待回答的问题。且让我们看看几周后,RedMonk是如何思考和解决这个问题的。

参考链接:https://redmonk.com/rstephens/2023/12/14/language-rankings-update/

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...
Intel将Moblin社区控... 本周二,非营利机构Linux基金会宣布,他们将担负起Moblin社区的管理工作,而这之前,Mobli...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...