当前位置：首页 > 综合服务 > 社群媒体 > 详解各种LLM系列｜（1）LLaMA 1 模型架构、预训练、部署优化特点总结

详解各种LLM系列｜（1）LLaMA 1 模型架构、预训练、部署优化特点总结

时间：2024-05-04 13:20:43 来源：网络cs 作者：晨起栏目：社群媒体阅读：

3.1 预训练数据

LLaMA的预训练数据大约包含1.4T个token。其训练数据集是几个来源的混合，涵盖了不同的领域。

表1所示是 LLaMa 预训练数据的含量和分布：

表1：训练数据组成
数据集	样本比例	Epochs	所占磁盘大小
CommonCrawl	67.0%	1.10	3.3 TB
C4	15.0%	1.06	783 GB
Github	4.5%	0.64	328 GB
Wikipedia	4.5%	2.45	83 GB
Books	4.5%	2.23	85 GB
ArXiv	2.5%	1.06	92 GB
StackExchange	2.0%	1.03	78 GB

English CommonCrawl [67%]：对五个 CommonCrawl 数据集进行预处理，时间跨度从2017年到2020年，使用 CCNet 来进行文本数据的预处理。该过程先进行文本内容分片，然后进行段落归一化，并在此基础上在行级别进行数据去重；使用 fastText 线性分类器进行语言识别，以删除非英语页面；使用 n-gram 语言模型过滤低质量内容。此外，还训练了一个线性模型，用于将页面分类为 Wikipedia 中的引用页面与随机抽样页面，并丢弃未被分类为引用的页面。（CCNet可参考LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程 - 掘金）C4 [15%]：C4也是属于Common Crawl数据集的一个经过粗略预处理的子集。在探索性实验中，研究团队观察到使用不同的预处理CommonCrawl数据集可以提高性能。因此，在数据中包含了公开可用的C4数据集。对于C4的预处理与 CCNet 的主要区别在于质量过滤，对于C4的预处理主要依赖于标点符号的存在或网页中的词语和句子数量等启发式方法。Github [4.5%]：使用 Google BigQuery 上可用的公共 GitHub 数据集。此外，使用基于行长度或字母数字字符比例的启发式方法过滤低质量文件，并使用正则表达式删除了诸如header之类的内容。最后，对生成的数据集进行了文件级别的去重，使用完全匹配的方法。Wikipedia [4.5%]：添加了截至2022年6月至8月的 Wikipedia 数据，涵盖20种语言。预处理包括：去除超链接、评论和其他格式样板。Gutenberg and Books3 [4.5%]：添加了两个书籍类的数据集，分别是 Gutenberg 以及 ThePile (训练 LLM 的常用公开数据集) 中的 Book3 部分。预处理包括重复数据删除，删除内容重叠超过 90% 的书籍。ArXiv [2.5%]：处理了arXiv Latex文件，以添加学术文本到数据集中。预处理包括：移除第一节之前的所有内容，以及参考文献；移除了.tex文件中的注释，并且内联展开了用户编写的定义和宏，以增加论文之间的一致性。Stack Exchange [2%]：这是一个涵盖各种领域的高质量问题和答案网站，范围从计算机科学到化学（类似知乎）。研究团队从 28 个最大的网站保留数据，从文本中删除 HTML 标签并按分数对答案进行排序。

笔者NOTE：对于LLM的训练，数据的质量是基础。对于这部分感兴趣的小伙伴，可以仔细看下LLaMA训练时对于不同数据集的处理方式。

3.2 Tokenizer

使用字节对编码（BPE）算法对数据进行分词，使用 SentencePiece 的实现。值得注意的是，作者将所有数字分割成单个数字。

对于BPE的详细解释，可参考BPE 算法原理及使用指南【深入浅出】 - 知乎

3.3 模型架构

LLaMa 的网络还是主要基于 Transformer 架构。研究团队根据不同模型（如PaLM）的改进，从而利用了这些改进，来进一步提高LLaMA的训练稳定性、上下文长度性能。

以下是与原始架构的主要区别，以及从哪里得到了这种变化的灵感（括号中）。

Pre-normalization [受 GPT3 的启发]：为了提高训练稳定性，LLaMa 对每个 Transformer 子层的输入进行归一化，而不是对输出进行归一化。LLaMa 使用了 RMSNorm 归一化函数。
（关于Pre-norm vs Post-norm，可参考为什么Pre Norm的效果不如Post Norm？ - 科学空间|Scientific Spaces）

SwiGLU 激活函数 [受 PaLM 的启发]：LLaMa 使用 SwiGLU 激活函数替换 ReLU 以提高性能，维度从 $4d$ 变为。SwiGLU是一种激活函数，它是GLU的一种变体，它可以提高transformer模型的性能。SwiGLU的优点是它可以动态地调整信息流的门控程度，根据输入的不同而变化，而且SwiGLU比ReLU更平滑，可以带来更好的优化和更快的收敛。
%20（关于SwiGLU激活函数，可参考激活函数总结（八）：基于Gate%20mechanism机制的激活函数补充(GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU)_glu激活-CSDN博客）

%20%20

Rotary%20Embeddings%20[受%20GPTNeo%20的启发]：LLaMa%20没有使用之前的绝对位置编码，而是使用了旋转位置编码（RoPE），可以提升模型的外推性。它的基本思想是通过一个旋转矩阵来调整每个单词或标记的嵌入向量，使得它们的内积只与它们的相对位置有关。旋转嵌入不需要预先定义或学习位置嵌入向量，而是在网络的每一层动态地添加位置信息。旋转嵌入有一些优点，比如可以处理任意长度的序列，可以提高模型的泛化能力，可以减少计算量，可以适用于线性Attention等。
%20(关于%20RoPE%20的具体细节，可参考十分钟读懂旋转编码（RoPE）%20-%20知乎）

%20%20

笔者NOTE：LLM的架构是实现LLM基础性能的基石，对于这部分，各位小伙伴还是需要深入地了解一下各种架构的原理，以及其优劣势。

%20

3.4%20优化器

%20

LLaMA使用了AdamW优化器进行训练，优化器的超参数为=0.9, =0.95

%20

(关于AdamW这个大模型训练的优化器，可参考当前训练神经网络最快的方式：AdamW优化算法+超级收敛%20|%20机器之心)

%20

下表为LLaMA不同参数大小模型的具体设置：

%20%20%20%20表2: LLaMA不同参数大小模型的具体设置%20%20参数维度（dim）head个数layer层数学习率batch%20sizetoken数量6.7B409632323.0e−44M1.0T13.0B512040403.0e−44M1.0T32.5B665652601.5e−44M1.4T65.2B819264801.5e−44M1.4T%20

%20

3.5 训练结果

%20

如下图所示，7B、13B、33B和65模型的训练损失均呈下降趋势，且在所有token上训练完后，loss仍没有收敛的趋势。因此，在此时，增加训练的token数量，仍然可以使模型继续学习。

%20

（LLaMA2就是在此结论的基础上，使用了更多的token进行训练）

%20

3.6 高效部署

研究团队做了一些优化来提高模型的训练速度：

因果多头注意的有效实现：使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers库中获得，其灵感来自于固定激活值显存优化和FlashAttention。这是通过不存储注意力权重和不计算由于语言建模任务的因果性质而被掩盖的key/query分数来实现的。激活重计算：为了进一步提高训练效率，通过检查点减少了在向后传递过程中重新计算的激活量。更准确地说，节省了计算成本高的激活，比如线性层的输出。这是通过手动实现transformer层的backward函数来实现的，而不是依赖于PyTorch的autograd。模型并行和序列并行：为了从这种优化中充分受益，需要通过使用模型和序列并行来减少模型的内存使用。此外，还尽可能地重叠激活的计算和gpu之间通过网络的通信。

笔者NOTE：LLM的高效训练是LLM工程实现的基础，对于这部分，各位小伙伴还是需要深入地了解一下各种并行策略、因果多头注意的有效实现、激活重计算、混合精度训练。

四、基于LLaMA的衍生模型（概述）

笔者NOTE：由于篇幅太长，因此在这篇里仅进行基于LLaMA的衍生模型的概述，之后也会出详细介绍各个衍生模型的文章

4.1 Alpaca

Alpaca是斯坦福在LLaMa-7B的基础上监督微调出来的模型，斯坦福是用OpenAI的Text-davinci-003 API配合self-instruct技术，使用175个提示语种子自动生成了52K条提示-回复的指示数据集，在LLaMa-7B上微调得到的模型，在8张80G的A100上训练了3小时。

可以说是以极低的成本生成了高质量的指令数据，并进行了指令微调，最终可以达到媲美GPT3.5的水平。

4.2 Vicuna

Vicuna是在LLaMa-13B的基础上使用监督数据微调得到的模型，数据集来自于ShareGPT.com 产生的用户对话数据，共70K条。使用Pytorch FSDP在8张A100上训练了一天。相较于Alpaca，Vicuna在训练中将序列长度由512扩展到了2048，并且通过梯度检测和flash attention来解决内存问题；调整训练损失考虑多轮对话，并仅根据模型的输出进行微调。通过GPT4来打分评测，Vicuna可以达到ChatGPT 90%的效果。并且还提供了可调用的分布式聊天服务FastChat。

参考：

LLaMa-1 技术详解 - 知乎

LLaMA及其子孙模型概述 - 掘金

https://www.cnblogs.com/jiangxinyang/p/17310398.html

本文链接：https://www.kjpai.cn/news/2024-05-04/164740.html，文章来源：网络cs，作者：晨起，版权归作者所有，如需转载请注明来源和作者，否则将追究法律责任！

上一篇：HarmonyOS应用开发者高级认证答案

下一篇：返回列表

跨境派