Hugging Face是LLM新的GitHub
创始人
2025-07-03 04:30:54
0

译者 | 李睿

审校 | 重楼

近年来,大型语言模型(LLM)席卷了科技行业,开辟了创新的新领域,颠覆了从搜索到客户服务的一切。支持这场人工智能革命的是GitHub和Hugging Face这样的开放生态系统,它使开发人员和企业能够快速构建、部署和扩展LLM。就像GitHub已经成为软件开发和协作的首选平台一样,Hugging Face现在正在成为所有与LLM相关事物的事实上的中心。

大型语言模型的兴起

像GPT-3、BERT和PaLM这样的LLM可以让科技界发挥自己的想象力,它们能够生成类似人类的文本、回答问题、总结文档,甚至根据简单的文本提示编写代码。根据麦肯锡公司发布的一份研究报告,专注于LLM的自然语言处理初创公司的投资从2020年的1亿美元激增至2021年的15亿美元以上。

这种兴趣激增源于LLM在应对各种人工智能挑战方面的多功能性。例如,OpenAI公司的ChatGPT擅长于会话任务,而像Cohere的生成式自然语言处理API这样的工具可以总结文本并调节内容。LLM正在改变企业的运营方式,推动从智能搜索到自动化客户支持的各方面的进步。

麦肯锡公司估计,到2025年,LLM将在美国经济中每年创造2000亿至3000亿美元的经济价值。谷歌、Meta和微软等美国科技巨头以及初创公司都在竞相挖掘LLM的潜力。但是在LLM上构建、部署和迭代需要专门的基础设施和工具。

GitHub在软件协作中的关键作用

为了理解Hugging Face作为LLM中心日益重要的意义,可以了解GitHub在软件开发中扮演的不可或缺的角色。GitHub于2008年推出,是用于版本控制和源代码管理的开源Git协议的先驱。

如今,GitHub拥有2亿多个代码库和8300万多名开发人员。它为开发人员提供了协作、审查代码、跟踪问题和发布软件的工具。GitHub已经成为软件团队运作不可或缺的一部分,微软公司在2018年以75亿美元收购GitHub就是一个例子。

根据StackOverflow在2021年调查显示,90%以上的开发人员使用GitHub。该平台的社交编码能力打破了软件开发中的障碍。开发人员可以利用开源项目来加速构建。而企业使用GitHub的企业产品来简化编码工作流程。GitHub深深植根于开发者文化,塑造了软件社区创建、扩展和部署代码的方式。

Hugging Face成为LLM的首选平台

就像GitHub推动了开源开发一样,Hugging Face正在引领LLM的开放生态系统方法。Hugging Face成立于2016年,最初专注于自然语言处理。在2020年,它转向LLM并创建了Transformer库,该库将不同的LLM架构(例如BERT和GPT-2)与标准化API统一起来。

这个库通过抽象掉与LLM一起工作的复杂性,使LLM的访问民主化。如今,Hugging Face已经成为一个拥有20多万用户的充满活力的社区。其主要产品有:

  • 模型中心:超过10万个人工智能模型的存储库,包括OpenAI公司的CLIP和Salesforce公司的BLENDER等LLM。它降低了使用LLM的门槛。
  • 标记器:预训练模型用于标记和编码LLM文本。对数据预处理至关重要。
  • 数据集:精心策划的数据集,用于培训和评估LLM。
  • Spaces:用于部署、监控和扩展LLM驱动的应用程序的一个MLOps平台。
  • Infinite:基于GPT模型的维基风格数据集,用于生成自然语言查询的答案。

这套工具解决了LLM从发现到部署的整个开发生命周期。Hugging Face还构建了与Streamlight等平台的集成,实现了无代码LLM的实验。

到目前为止,Hugging Face已经筹集了1亿美元的资金,这反映了其日益飙升的知名度。去年,Hugging Face的估值翻了五倍,达到20亿美元。国际顶级人工智能实验室和公司也在与Hugging Face合作。

LLM的GitHub

Hugging Face庞大的模型、数据集和开发工具中心为它赢得了“LLM GitHub”的绰号。它的模型中心是任何想要与LLM合作的人的起点。开发人员可以在其网站上找到Meta AI的OPT-175B等模型的优化实现。

然后,他们可以通过Hugging Face的Transformers库无缝访问这些模型。这大幅降低了使用先进LLM的门槛,企业不再需要从头开始构建自己的LLM。与其相反,他们可以采用Hugging Face预先设定的LLM,并对其进行微调,以适应搜索和分析等领域的定制用例。

Spaces支持协作构建、测试和部署LLM应用程序。结合Hugging Face的开放数据集和活跃的社区论坛,它复制了GitHub为LLM量身定制的开源精神的核心元素。

美国一家大型科技公司的机器学习工程师Leo Zhao总结了Hugging Face在LLM工作流程中的融入:“每当我们需要一个新项目的LLM时,Hugging Face是我们所到的第一站。它们的模型中心有大量的选项可供选择。只需几行代码,我们就可以立即标记并将数据提供给模型。Spaces使得在GPU集群上缩放模型训练变得容易。它确实是一个与LLM相关的一站式平台。”

GitHub的类比也适用于Hugging Face如何围绕LLM培养协作社区。它的技术论坛已经成为数以万计的LLM开发人员和用户的重要知识和支持来源。Hugging Face通过其广受欢迎的LLM会议进一步培养了这个社区,使最新进展的访问民主化。

克服LLM采用的挑战

事实证明,Hugging Face在帮助企业克服采用LLM的关键障碍方面发挥了重要作用。根据麦肯锡公司进行的一项研究,企业在LLM方面面临的最大挑战是评估价值和确定用例。Hugging Face通过集中广泛的LLM选择和推荐的微调数据集来缓解这一问题。

此外,将LLM投入生产会带来复杂的数据和基础设施问题。Hugging Face的端到端平台从模型访问到部署,为企业扫清了这些障碍。

大规模构建和运行LLM所需的财务投资也阻碍了LLM的采用。Hugging Face通过提供易于访问的预训练模型来降低成本。Space通过其无服务器架构和对可扩展云计算硬件(例如TPU)的支持进一步优化了支出。对于规模较小的团队和初创公司来说,这可以使大型LLM实验变得可行。

用LLM改变未来

展望未来, Hugging Face似乎有望继续发展成为LLM的中心。它的社区已经超过了流行的人工智能论坛。越来越多的开发人员和企业在他们的生产管道中依赖于像Transformers库和Tokenizers这样的工具。

LLM将推动市场营销、销售和财务等领域发生翻天覆地的变化。麦肯锡公司预计,LLM可以将30%至45%的当前工作活动实现自动化,从而产生重大的社会影响。像Hugging Face这样降低LLM创新门槛的平台,将是实现其变革潜力的核心。

就像GitHub加速了软件工程一样,Hugging Face使开发人员和企业能够更快速、更有效地利用LLM的能力。对于日益增长的LLM驱动的经济来说,Hugging Face代表着通往未来的大门。它的综合平台可以催化新市场,开启人类与人工智能的大规模合作,开创下一个技术进步的时代。

原文标题:Hugging Face Is the New GitHub for LLMs,作者:Arvind Bhardwaj

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...