Newbing为什么与其他生成式AI如此不同
创始人
2025-07-13 04:21:21
0

自从用上Newbing后,我就放弃CHATGPT 3.5了。昨天写完文章后,我又试了下ChatGPT,没想到去年被封的账号居然又可以用了,不过只能用3.5版本,要用4.0必须升级到PRO,每个月20美金。于是我没有尝试去付款,因为Newbing对我来说已经够用了。

我前几天发那篇关于多个公共大模型回答数据库问题的性能比较的文章后,有个朋友给我留言说用Newbing去和其他通识大模型做PK有点不公平,因为Newbing是一个工程化的系统,使用RAG+LLM的方式来提供服务,首先通过搜索查找到相关知识,再向大模型提问,性能肯定会比其他LLM要好。可能这个朋友是我对比的几种国产大模型的成员,因此他比较在意我的测试的公正性。事实确实是如此,因为其他大模型提供给我们的接口也是工程化的,不过并没有微软做得好,我也只能暂时这么比较了。

从上面的文字,很多朋友可能已经意识到了,通识大模型直接用于运维支撑,其性能是不足的,必须通过本地知识库的嵌入才能获得比较好的效果。这是因为在专业技术领域,通识大模型往往缺乏足够的专业领域知识,因此对于很多问题,它们只能照猫画虎去瞎猜,性能肯定是不足的。

图片图片

从去年11月份OpsEval发布运维大模型基准来看,通识大模型在OPS领域的表现不如人意。最主要的问题是幻觉问题,我们可以看出GPT 4.0的3-shot Cot这个标志Few shot思维链的指标也仅仅为88.70,只比Yi-34B-Chat这种参数规模小得多的模型搞出不到10%。这种水准无法作为权威提供服务,只能给人以参考。而对于Zero-shot的性能,就更加可怜了。Yi-34B仅仅为65%,也就是说大约1/3的大模型没有学习过的知识的回答是错误的。通识大模型对于需要精准回答的运维领域来说是能力不够的。

大模型因为训练成本昂贵并且无法增量训练(增量只能做微调),因此想要把层出不穷的新知识不断的添加到模型中去是不大现实的。通过RAG做本地知识库的向量嵌入,或者通过AutoPrompt来优化提问是弥补这一缺陷的有效办法,目前已经被大量的商用。

我前阵子也说过,对于搞技术的人来说,拥有一个能够随时给大家提供帮助的知识库十分重要。虽然说目前Newbing已经能够给我提供很好的帮助,不过在很多时候我依然觉得拥有一个私有知识库是十分必要的。

图片图片

从去年开始我就一直在关注着蚂蚁的开源项目DB-GPT,这个在12GB显卡上就可以进行推理的大模型框架是DBA建立自己私有智能助理的不错的选择。经过一年的迭代,这个开源项目已经较为成熟了,对于想做这方面工作的朋友,所需的就是做自己的知识库就行了。


相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...