怀疑Demo只是演示?实测全球首款AI工程师Devin:缺点还不少,砸不了程序员饭碗!周鸿祎暂时胜利!
创始人
2025-07-14 11:31:37
0

编译 | 言征

出品 | 51CTO技术栈(微信号:blog51cto)

就在李彦宏和周鸿祎就“AI是否会取代程序员”争吵的第二天晚上,一款号称“全球首款AI软件工程师”的Devin被社交媒体疯传了起来。

Devin(英文中寓意:神秘、完美,Godlike),脱颖而出的地方在于,跟以往的Github Copilot等编码助手不同,它能够独立地、端到端地、处理整个软件项目。而它的公司Cognition Labs, 已经获得了2100万美元的投资支持,其中包括彼得·泰尔的Founders Fund,人气陡升。

如果Devin成功,这将会显著影响软件开发行业,可能会在某些项目上减少对人类开发者的需求。

具体能力数字方面,Devin在SWE-Bench基准测试(用于评估AI模型在软件工程任务)中取得了13.86%的准确率,也就是说它能独立解决每100个问题中的近14个,虽然这一成绩远远超过了之前最好的模型Claude 2的1.96%的无辅助准确率和4.80%的有辅助准确率。

这是生成式AI在自主理解和解决软件开发问题能力显著提升的重大事件,坚定了选择GenAI+Coding赛道的从业者的信心。

1、Demo视频很震撼,不如实测一番

但李彦宏和周鸿祎的那个争论,似乎并不会随着Devin的出现而迎来答案。

因为,Devin非常有创造性,但实际表现并不会让程序员们担心丢掉饭碗。正如Cognition放出的视频,可以看出整个过程仍需要人工辅助参与,即便不需要人,我们会发现AI能完成的任务,实在太过简单。

另外,Demo演示视频难免让人怀疑实际效果,一位酷爱开发的网友 Andrew Kean Gao第一时间申请了测试使用Devin。正如上文所说,有些任务如果没有人为干预的话,就会运行失败。

图片图片

“Devin给人的第一眼的印象在于UI/UX(界面和交互),而并非是GenAI”,他表示,AI是核心组件,但真正引人注目的是他们构建的周边基础设施。

图片图片

此外,Gao还表示,这个产品感觉相当成熟,并不是之前以为的一个演示版本。“他们构建了诸如自动部署到Netlify、API密钥保护、智能中断方式以免真的打断流程、为人类量身定制的良好用户界面,以及连接LLM和人类开发者的桥梁,还有一个可以回溯时间的滑块,”他补充说,一点点揭开事物的面纱很有趣。

图片图片

“最大的缺点是速度慢,”Gao说,他形容网站感觉有点慢。然而,他说这也可能是因为他使用的是1Mbps的Starlink连接。所以这部分可能是他自己的问题。

Gao还提到,你不能编辑Devin生成的代码。“它还没有达到协作的程度。”

Ryan Carniato,SolidJS UI库的作者以及MarkoJS核心团队成员,表示到目前为止,Devin在正确选择用于简单任务的库方面,尚存在困难,比如构建一个“todo-list”应用程序。Devin竟然选择复杂库而不是像Lit这样的现代轻量级库来构建网络组件,有些让人咋舌。

在HackerNews上以dakiol为名的用户说:“我工作中的90%并不是编写代码(作为一名高级软件工程师),而是要将复杂的要求去混淆并分解成明确的块,找出要求中的空白或漏洞,以便我只需编写最少的代码,理解代码库以便实施能够很好地契合。”这段话突显了Devin的局限性。

2、Devin 砸不了程序员的饭碗

Devin的显著能力提升在社交媒体上引发了关于编程工作未来以及人工智能在软件开发中角色的讨论。不出意外,又是两派:一些开发者对工作被取代表示担忧,而另一些人则将Devin视为提高生产力、专注于更高层次任务的工具。

令人惊讶的是,对于开发者工作的总体前景仍然保持积极。据美国劳工统计局预测,从2019年到2029年,软件开发人员的就业机会将增长22%,这一增长速度远远超过所有职业的平均增长率。

“AI系统如Devin将降低非技术创始人进入技术领域的门槛。它将使软件工程大众化,”AI科学家Saurabh Shukla说,他强调了Devin的积极面,以及它将如何(不)取代软件工程工作。

谷歌的工程经理Vineet Joglekar表示:“如果你是一个仅仅写代码的人,你需要开始以不同的方式思考。”他说,由于在故障排除、策略思考和人类驱动的创新问题解决中持续需要人工监督,Devin还没有准备好取代所有的开发者工作。

最后多说一嘴,近期代码编写Agent类的产品值得大家关注,虽然它暂时还取代不了人类!毕竟的确可以提升不少效率。当然,周鸿祎目前看是赢了!

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
粉嫩如何诠释霸道 东芝M805... “霸道粉”是个什么玩意东芝M805拿过来的时候,笔者扑哧笑了,不是笑这款笔记本,而是笑这款产品的颜色...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
30分钟搞定iOS自定义相机 最近公司的项目中用到了相机,由于不用系统的相机,UI给的相机切图,必须自定义才可以。就花时间简单研究...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...