译者 | 朱先忠
审校 | 重楼
摘要:本文将介绍使用开源工具MergeKit并利用四种不同算法实现合并多个LLM,实现无需借助昂贵GPU的情况下轻松定制出自己的大型语言模型。
模型合并是一种将两个或多个LLM合并为单个模型的技术。这是一种相对较新的实验性方法,可以以低廉的资金投入来创建新模型(不需要GPU)。模型合并工作出奇地好,而且在Open LLM排行榜上先后出现了许多基于模型合并技术的最先进的模型。
在本教程中,我们将使用开源的MergeKit库来实现模型合并。更具体地说,我们将回顾四种合并方法,并提供相应的配置示例。然后,我们将使用MergeKit创建我们自己的模型——Marcoro14-7B-slerp,它也成为了Open LLM排行榜上表现最好的模型之一(02/01/2023)。
本文相应的示例项目源码可在GitHub和Google Colab上获得。当然,我也推荐您使用我本人修改的自动笔记本程序LazyMergekit来更轻松地运行MergeKit。
在本节中,我们将重点介绍目前在MergeKit中实现的四种方法。请注意,还有其他一些算法,如线性算法和任务算术算法。如果您对模型合并的论文感兴趣,我推荐您阅读一下Hugging Face上的一组与此相关的优秀论文集。
球面线性插值(SLERP:Spherical Linear Interpolation)是一种用于在两个矢量之间进行平滑插值的方法。这种算法保持一个恒定的变化率,并保留向量所在的球形空间的几何特性。
与传统的线性插值相比,有几个原因让我们更喜欢SLERP。例如,在高维空间中,线性插值可能导致插值向量的大小减小(即,它减小了权重的比例)。此外,权重方向的变化通常代表比变化幅度更有意义的信息(如特征学习和表示)。
SLERP算法的实现基于以下步骤:
一种SLERP的配置示例如下所示:
slices:
- sources:
- model: OpenPipe/mistral-ft-optimized-1218
layer_range: [0, 32]
- model: mlabonne/NeuralHermes-2.5-Mistral-7B
layer_range: [0, 32]
merge_method: slerp
base_model: OpenPipe/mistral-ft-optimized-1218
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
这是一个经典的SLERP配置,应用于两个模型的每一层。请注意,我们为插值因子t输入值的梯度。自关注层和MLP层的参数将分别使用OpenPipe/mistral-ft-optimized-1218和mlabonne/NeuralHermes-2.5-mistral-7B的不同组合。其他层则是使用了两个模型的50/50的混合比例。
您可以在Hugging Face Hub上找到此最终模型mlabonne/NeuralPipe-7B-Serrp。
Yadav等人在他们的论文中介绍了TIES-Merging算法,它旨在将多个特定于任务的模型有效地合并为一个多任务模型。这种方法解决了模型合并中面临的两个主要挑战:
与SLERP算法不同,TIES算法可以一次合并多个模型。
一种TIES的配置示例如下所示:
models:
- model: mistralai/Mistral-7B-v0.1
# 基本模型不需要任何参数
- model: OpenPipe/mistral-ft-optimized-1218
parameters:
density: 0.5
weight: 0.5
- model: mlabonne/NeuralHermes-2.5-Mistral-7B
parameters:
density: 0.5
weight: 0.3
merge_method: ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
normalize: true
dtype: float16
使用此配置,我们使用Mistral-7B模型作为基础模型来计算增量权重。我们合并了同样的两个模型:mistral-ft-optimized-1218(占50%)和NeuralHermes-2.5-mistral-7B(占30%),并进行了规范化。这里,密度(density)参数意味着我们只保留了每个模型50%的参数(另一半来自基本模型)。
请注意,在上面配置中,权重之和并不等于1,但normalize:true参数将在内部自动对它们进行规范化。此配置的灵感来自OpenHermes-2.5-neural-chat-7b-v--7b的作者提供的参数。
您可以在Hugging Face Hub上找到此最终模型mlabonne/NeuralPipe-7B-ties。
由Yu等人于2023年引入的DARE算法使用了一种类似于TIES的方法,主要存在两个方面的区别:
MergeKit对该方法的实现使用了两种风格:使用符号选择步骤的TIES(dare_ties)或不使用符号选择步骤的TIES(dare_linear)。
一种DARE的配置示例如下所示:
models:
- model: mistralai/Mistral-7B-v0.1
#基本模型不需要任何参数
- model: samir-fama/SamirGPT-v1
parameters:
density: 0.53
weight: 0.4
- model: abacusai/Slerp-CM-mist-dpo
parameters:
density: 0.53
weight: 0.3
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.2
parameters:
density: 0.53
weight: 0.3
merge_method: dare_ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
int8_mask: true
dtype: bfloat16
在这种配置中,我们使用dare_ties合并了基于Mistral-7B的三种不同模型。这一次,我选择了总和为1的权重(总和应该在0.9和1.1之间)。密度参数density比论文中建议的略高(<0.5),但看起来它总是能给出更好的结果(请参考链接https://github.com/cg123/mergekit/issues/26处的有关讨论)。
你可以在Hugging Face Hub上找到mlabonne/Daredevil-7B。这也是本文中最好的合并模型,甚至超过了Marcoro14-7B slerp。
Passthrough方法与以前的方法有很大不同。通过连接来自不同LLM的层,它可以产生具有极大数量的参数的模型(例如,具有两个7B参数模型的9B)。这些模型通常被社区称为“弗兰肯合并”或“弗兰肯斯坦模型”。
这项技术是极具实验性的,但它成功地创建了令人印象深刻的模型,比如使用两个Llama 2 70B模型的goliath-120b模型。最近发布的SOLAR-10.7B-v1.0模型也使用了同样的想法,在他们的论文中称为深度放大。
一种Passthrough方法的配置示例如下所示:
slices:
- sources:
- model: OpenPipe/mistral-ft-optimized-1218
layer_range: [0, 32]
- sources:
- model: mlabonne/NeuralHermes-2.5-Mistral-7B
layer_range: [24, 32]
merge_method: passthrough
dtype: bfloat16
所得到的弗兰肯合并将具有来自第一个模型的所有32层和来自第二个模型的8个附加层。这就创建了一个总共有40层和8.99B个参数的弗兰肯合并。此配置的灵感来自GML-Mistral-merged-v1。
你可以在Hugging Face Hub上找到mlabonne/NeuralPipe-9B-merged。
在本节中,我们将使用MergeKit加载合并配置,运行它,并将生成的模型上传到Hugging Face Hub。
首先,我们直接从源代码安装MergeKit,如下所示:
!git clone https://github.com/cg123/mergekit.git
!cd mergekit && pip install -q -e .
在下面的代码块中,我们以YAML格式加载合并配置。我们还指定合并模型的名称以供将来使用。您可以复制/粘贴上一节中的任何配置到这里。
这一次,我们将使用两种不同的模型:Marcroni-7B-v3和Mistral-7B-Merge-14-v0.1,并使用SLRP方法将它们合并。我们将配置保存为yaml文件,用作merge命令中的输入。
import yaml
MODEL_NAME = "Marcoro14-7B-slerp"
yaml_config = """
slices:
- sources:
- model: AIDC-ai-business/Marcoroni-7B-v3
layer_range: [0, 32]
- model: EmbeddedLLM/Mistral-7B-Merge-14-v0.1
layer_range: [0, 32]
merge_method: slerp
base_model: AIDC-ai-business/Marcoroni-7B-v3
parameters:
t:
- filter: self_attn
value: [0, 0.5, 0.3, 0.7, 1]
- filter: mlp
value: [1, 0.5, 0.7, 0.3, 0]
- value: 0.5
dtype: bfloat16
"""
# 将配置保存为yaml文件
with open('config.yaml', 'w', encoding="utf-8") as f:
f.write(yaml_config)
我们使用以下参数运行merge命令:
此命令将下载合并配置中列出的所有模型的权重,并运行所选的合并方法(大约需要10分钟)。
# 合并模型
!mergekit-yaml config.yaml merge --copy-tokenizer --allow-crimes --out-shard-size 1B --lazy-unpickl
现在,模型已合并并保存在“merge”目录中。在上传之前,我们可以创建一个自述文件,其中包含再现性所需的所有信息。下面的代码块定义了一个Jinja模板,并自动使用合并配置中的数据填充它。
!pip install -qU huggingface_hub
from huggingface_hub import ModelCard, ModelCardData
from jinja2 import Template
username = "mlabonne"
template_text = """
---
license: apache-2.0
tags:
- merge
- mergekit
- lazymergekit
{%- for model in models %}
- {{ model }}
{%- endfor %}
---
# {{ model_name }}
{{ model_name }} is a merge of the following models using [mergekit](https://github.com/cg123/mergekit):
{%- for model in models %}
* [{{ model }}](https://huggingface.co/{{ model }})
{%- endfor %}
## �� Configuration
```yaml
{{- yaml_config -}}
```
"""
#创建一个Jinja 模板对象
jinja_template = Template(template_text.strip())
# 从配置文件中取得一个模型列表
data = yaml.safe_load(yaml_config)
if "models" in data:
models = [data["models"][i]["model"] for i in range(len(data["models"])) if "parameters" in data["models"][i]]
elif "parameters" in data:
models = [data["slices"][0]["sources"][i]["model"] for i in range(len(data["slices"][0]["sources"]))]
elif "slices" in data:
models = [data["slices"][i]["sources"][0]["model"] for i in range(len(data["slices"]))]
else:
raise Exception("No models or slices found in yaml config")
# 填充模板
content = jinja_template.render(
model_name=MODEL_NAME,
models=models,
yaml_cnotallow=yaml_config,
username=username,
)
# 保存模型卡
card = ModelCard(content)
card.save('merge/README.md')
现在,我们已经创建了模型卡ModelCard。接下来,我们可以将整个文件夹推送到Hugging Face Hub上。
from google.colab import userdata
from huggingface_hub import HfApi
username = "mlabonne"
#在Google Colab网页的secrets面板上定义
api = HfApi(token=userdata.get("HF_TOKEN"))
api.create_repo(
repo_id=f"{username}/{MODEL_NAME}",
repo_type="model"
)
api.upload_folder(
repo_id=f"{username}/{MODEL_NAME}",
folder_path="merge",
)
现在,该模型可从Hugging Face Hub上下载到:mlabonne/Marcoro14-7B-slerp。在另一个笔记本电脑中,我们可以使用以下代码在免费的T4 GPU上测试该模型:
!pip install -qU transformers accelerate
from transformers import AutoTokenizer
import transformers
import torch
model = "mlabonne/Marcoro14-7B-slerp"
messages = [{"role": "user", "content": "What is a large language model?"}]
tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
我们提出了一个问题“What is a Large Language Model?(什么是大型语言模型?)”,收到了以下输出:
“A large language model is a type of artificial intelligence (AI) system that has been trained on vast amounts of text data. It’s designed to understand and generate human-like language, making predictions on what words or phrases might come next in a sentence or document. These models use complex algorithms and neural network architectures to learn from the data and improve their performance over time. Some well-known large language models include GPT-3 from OpenAI and BERT from Google.”
相应的中文意思是:“大型语言模型是一种基于大量文本数据进行训练的人工智能系统。它旨在理解和生成类似人类的语言,预测句子或文档中接下来可能出现的单词或短语。这些模型使用复杂的算法和神经网络架构从数据中学习,并随着时间的推移提高其性能。一些著名的大型语言模型包括有OpenAI的GPT-3和谷歌的BERT”。
看起来效果不错,但我们需要进行一个更全面的评估。目前,对于这种通用模型,已经出现了几个非常有趣的评估工具:
不幸的是,我们无法将我们的模型提交给Chatbot Arena基准测试平台。相反,我选择使用Open LLM排行榜和NousSearch基准进行评估。
我将我们的模型提交给了Open LLM排行榜(“Submit here!”选项卡)。正如在本文开始所介绍的,它在排行榜上排名为最佳7B参数模型。以下是完整的结果:
图片由作者本人提供
Open LLM排行榜的问题在于这些基准是公开的。这意味着,人们可以根据测试数据训练LLM以获得更好的结果。通过合并最好的模型,我们也“污染”了我们自己的结果。可以肯定地假设Marcoro14-7B-slerp模型也受到了“污染”,并且该合并中使用的一些模型已经在测试集上进行了训练。如果你想创建最好的模型——而不是破解排行榜的话,我建议你只使用非合并模型来创建自己的合并。
这就是为什么我们不想只依赖OpenLLM排行榜的原因。对于NousSearch基准套件,借助于LLM AutoEval工具,我可以用一个简单的Colab笔记本来完成自动计算分值。以下是与优秀的OpenHermes-2.5-Mistral-7B模型进行比较的结果:
图片由作者本人提供
在每个基准测试中,我们都比这个模型有了显著的改进。请注意,NousSearch基准套件与Open LLM排行榜共享一些任务:ARC Challenge、TruthfulQA、HellaSwag和Winogrande。据我所知,Bigbench是唯一一个100%不同的基准(如果不是这样,请随时联系我)。然而,我们在这次合并中使用的一个模型仍然可以在Bigbench上进行训练。
在本文中,我们介绍了用四种不同算法合并LLM的概念。其中,我们详细介绍了SLERP、TIES、DARE和Passthrough是如何工作的,并提供了相应的配置示例。最后,我们在MergeKit中运用SLERP算法,创建了Marcoro14-7B-SLERP模型,并将其上传到Hugging Face Hub。最终,我们在两个基准套件上都获得了出色的性能:Open LLM Leaderboard(性能最佳的7B模型)和NousSearch。如果你也想创建自己的合并,我推荐你使用我的自动笔记本程序LazyMergekit。
组合多个模型的另一种方法是将它们合并到一个混合专家系统(MoE)架构中。在下一篇文章中,我们将详细讨论如何做到这一点,并创建我们自己的类似Mixtral的模型。最后,如果你喜欢这篇文章,请在Medium和Twitter@mlabonne上关注我吧。
朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。
原文标题:Merge Large Language Models with mergekit,作者:Maxime Labonne