开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了
创始人
2025-07-11 06:01:24
0

从 Llama、Llama 2 到 Mixtral 8x7B,开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5,因此它也被认为是一种「非常接近 GPT-4」的开源选项。

在前段时间的一篇论文中,该模型背后的公司 Mistral AI 公布了 Mixtral 8x7B 的一些技术细节,并推出了 Mixtral 8x7B – Instruct 聊天模型。该模型性能在人类评估基准上明显超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B 聊天模型。在 BBQ 和 BOLD 等基准中,Mixtral - Instruct 也显示出更少的偏见。

但最近,Mixtral Instruct 也被超越了。一家名叫 Nous Research 的公司宣布,他们基于 Mixtral 8x7B 训练的新模型 ——Nous-Hermes-2 Mixtral 8x7B 在很多基准上都超过了 Mixtral Instruct,达到了 SOTA 性能。

图片

该公司联合创始人、X 平台用户 @Teknium (e/λ) 表示,「据我所知,这是第一个击败 Mixtral Instruct 的基于 Mixtral 的模型,在我个人的测试中,它可能是最好的开源 LLM 模型!」

图片

模型资料卡显示,该模型在超过 100 万个条目(主要是 GPT-4 生成的数据)以及来自整个 AI 领域开放数据集的其他高质量数据上进行了训练。根据后续微调方法的不同,该模型被分为两个版本:   

  • 仅用 SFT 方法微调的 Nous Hermes 2 Mixtral 8x7B SFT。链接:https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-SFT
  • 用 SFT+DPO 方法微调的 Nous Hermes 2 Mixtral 8x7B DPO。链接:https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO。Mixtral Nous-Hermes 2 DPO Adapter 链接:https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO-adapter

至于为什么发布两个版本,@Teknium (e/λ) 给出了以下解释:   

图片

以下是模型的输出示例:

1、为数据可视化编写代码

图片

2、写赛博朋克迷幻诗

图片

3、根据输入文本创建提示

图片

以下是一些性能数据:  

1、GPT4All

图片

2、AGI-Eval

图片

3、BigBench 推理测试

图片

在模型发布之后不久,生成式 AI 初创公司 Together AI 就宣布了其 API 对该模型的支持。Together AI 去年 11 月刚完成超一亿美元的 A 论融资。在 Nous Research 训练和微调 Nous Hermes 2 Mixtral 8x7B 模型期间,Together AI 为他们提供了算力支持。

图片

图源:https://twitter.com/togethercompute/status/1746994443482538141

Nous Research 最初是一个志愿者项目。他们最近成功完成了 520 万美元的种子融资轮,此轮融资由 Distributed Global 和 OSS Capital 联合领投,同时吸引了包括 Together AI 创始人兼 CEO Vipul Ved Reddy 在内的多位知名投资者的参与。Nous 计划在 2024 年推出一款名为 Nous-Forge 的 AI 编排工具。

从官网介绍中可以看到,他们的产品定位是:能够连接和运行程序,获取和分析客户文档,并生成合成数据供生产使用。这些专有系统可根据客户的需求进行微调,无论其业务领域如何。通过这些新颖的算法,他们希望聚合并分析数字注意力生态系统中以往非结构化的专题数据,为客户提供隐藏的市场脉搏信息。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...