你对AI未来的数据战略是什么?
创始人
2025-07-11 16:30:28
0

随着企业变得更加数据驱动,古老的计算谚语垃圾输入,垃圾输出(GIGO)从未像现在这样正确。将AI应用于许多业务流程只会加速确保所用数据的准确性和及时性的需要,无论是内部生成的数据还是外部来源的数据。

不良数据的代价

Gartner估计,企业因使用质量不佳的数据而平均每年损失1290万美元。IBM计算出,糟糕的数据每年给美国经济造成的损失超过3万亿美元,其中大部分费用涉及企业内部在数据通过和跨部门传递时检查和更正数据的工作。IBM认为,知识工作者有一半的时间被浪费在这些活动上。

除了这些内部成本外,客户、监管机构和供应商之间的声誉损害也是一个更大的问题,这些问题来自基于不良或误导性数据而行为不当的组织。《体育画报》及其CEO最近发现了这一点,当时该杂志被披露发表了由虚假作者撰写的文章,并使用AI生成的图像。虽然CEO丢掉了工作,但母公司Arena Group的市值损失了20%。也有几起备受瞩目的律师事务所通过提交虚假的AI生成的案件作为法律纠纷中优先地位的证据而陷入困境。

AI黑匣子

尽管成本高昂,但检查和更正企业决策和业务运营中使用的数据已成为大多数企业的既定做法,然而,考虑到幻觉的发生率越来越高,了解一些大型语言模型(LLM)是如何训练的,以及关于哪些数据和输出是否可信,则是另一回事。例如,在澳大利亚,一位当选的地区市长威胁要起诉OpenAI,因为该公司的ChatGPT虚假地声称,他曾因贿赂而入狱,而事实上,他一直是犯罪活动的举报人。

对LLM进行可信数据培训,并采用迭代查询、检索增强生成或推理等方法,是显著减少幻觉危险的好方法,但不能保证它们不会发生。

关于合成数据的培训

随着企业通过部署AI系统寻求竞争优势,回报可能会流向那些能够获得足够和相关的专有数据来训练他们的模型的人,但是,无法获得这些数据的大多数企业怎么办?研究人员预测,如果目前的趋势继续下去,用于训练LLM模型的高质量文本数据将在2026年前耗尽。

解决这个迫在眉睫的问题的一个办法是增加对合成训练数据的使用。Gartner估计,到2030年,AI模型中合成数据将超过真实数据的使用,然而,回到GIGO的警告,过度依赖合成数据可能会加速产出不准确和决策失误的危险。此类数据只能与创建它的模型一样好。数据混乱可能会带来更长期的危险,因为AI模型是在不符合标准的合成数据上进行训练的,这些数据产生的输出然后被反馈到后来的模型中。

谨慎行事

AI精灵已经从瓶子里出来了,虽然一些过于热情的技术供应商和咨询公司承诺的广泛的数字革命需要更多时间才能发生,但AI将继续以我们尚无法想象的方式改变商业,然而,访问企业所需规模的可靠和可信数据已经成为CIO和其他企业领导人必须在为时已晚之前找到补救方法的瓶颈。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...