技术报告 DeepMind推出Gemma 我们一起聊聊Google 2

引言：大规模语言模型的发展与挑战

近年来，大规模语言模型（LLMs）在语言理解、生成和推理方面展现出了强大的能力。随着模型规模的不断扩大，新的能力也逐渐显现。最新的大型模型不仅在推理基准测试上达到了前所未有的性能，还展示了多模态和多语言的能力，甚至能处理超过1M个令牌的上下文长度。

尽管小规模模型的性能也在迅速提升，这些提升主要来自于增加训练长度。然而，这种方法与数据集大小的增长呈对数关系，最新的小型模型需要高达15T令牌才能将艺术状态提高不到1-2%。

这些持续的改进表明，小型模型仍然存在未充分训练的问题。在本工作中，我们探索了提高小型模型性能的替代方法，而不仅仅是增加训练长度。一种解决方案是改进网络在每个训练步骤中接收的信息质量，通过替换下一个令牌预测任务来实现，采用更丰富的目标。我们采用了知识蒸馏方法，这种方法经常被用来减少小型模型的训练时间，通过提供更丰富的梯度。

此外，我们还利用了几种已知的Transformer修改技术，例如交替使用全局和局部注意力层，以及分组查询注意力机制。通过这些技术的应用，我们的模型在与规模相当的开放模型相比，显著提升了性能，并且在某些情况下，甚至能与规模是其两倍的模型竞争。

总的来说，这些技术的应用不仅提升了小型模型的性能，也为大规模语言模型的发展提供了新的可能性。然而，这些模型的测试不能覆盖所有应用场景，因此在部署或使用之前，所有用户都应进行严格的安全测试。

论文标题、机构、论文链接和项目地址

1. 论文标题:Gemma 2: Improving Open Language Models at a Practical Size

2. 机构:Google DeepMind

3. 论文链接:

模型架构与技术创新

1. Gemma 2模型的基本架构

Gemma 2模型继承了Gemma系列模型的基本架构，采用了解码器仅Transformer架构（Vaswani et al., 2017）。这种架构特别强调了使用旋转位置嵌入（RoPE）（Su et al., 2021）和近似的GeGLU非线性激活函数（Shazeer, 2020）。在Gemma 2中，与Gemma 1相比，采用了更深的网络层次结构，并在每个Transformer子层中使用了RMSNorm（Zhang and Sennrich, 2019）进行输入和输出的规范化，以稳定训练过程。

2. 知识蒸馏与训练数据的使用

在Gemma 2的开发中，采用了知识蒸馏技术（Hinton et al., 2），这是一种通过大模型（教师模型）来训练小模型（学生模型）的方法。具体来说，通过模拟教师模型对每个令牌的概率分布，来训练学生模型，而不是简单的下一个令牌预测。这种方法可以给小模型提供更丰富的梯度信息，从而在不增加训练令牌数量的情况下，显著提高模型性能。例如，Gemma 2的27B模型在13万亿令牌上进行训练，而9B和2B模型分别在8万亿和2万亿令牌上进行训练。

3. 改进的Transformer技术：局部-全局注意力与群组查询注意力

Gemma 2模型在其Transformer层中引入了局部滑动窗口注意力和全局注意力的交替使用（Beltagy et al., 2020a; Luong et al., 2），这种设计旨在提高模型处理长序列数据的能力。此外，Gemma 2还采用了群组查询注意力（Grouped-Query Attention, GQA）机制（Ainslie et al., 2023），该机制通过将注意力头分组来提高推理时的速度，同时保持下游任务性能。这些技术的应用使得Gemma 2在多项自动化基准测试和人类评估中表现出色，相对于同等规模的开放模型显著提升了性能。

训练过程与数据处理

1. 使用的数据类型与规模

2. 数据过滤与安全性考虑

为了确保数据的安全性和适用性，我们采用了与Gemma 1相同的数据过滤技术。具体来说，我们过滤了预训练数据集以减少不需要或不安全的表达，过滤掉某些个人信息或其他敏感数据，从我们的预训练数据混合中去除评估集的污染，并通过最小化敏感输出的传播来减少背诵的风险。

3. 计算基础设施与优化技术

我们的模型是在TPUv4、TPUv5e和TPUv5p上训练的。具体来说，2B模型在TPUv5e的2x16x16配置上训练，总共使用了512个芯片；9B模型在TPUv4的8x16x32配置上训练，使用了4096个芯片；而27B模型则在TPUv5p的8x24x32配置上训练，使用了6144个芯片。我们还使用了类似于ZeRO-3的技术进一步分片优化器状态。对于超过单个pod的规模，我们在数据中心网络上执行数据副本减少，使用了Pathways方法和单控制器编程范式。此外，我们还使用了GSPMD分区器进行训练步骤计算，以及MegaScale XLA编译器。

模型性能与评估

1. 预训练与指令调优模型的性能

预训练模型和指令调优模型（IT模型）在多个自动化基准测试和人类评估中展示了显著的性能。例如，Gemma 2模型在Chatbot Arena评估中表现优异，其27B模型的Elo评分高于多个竞争模型。此外，这些模型在处理多轮对话和遵循指令的能力上也有所提升，显示出与之前版本相比的显著改进。

2. 人类评估与自动化基准测试

Gemma 2模型在多种领域进行了广泛的评估，包括自动化基准测试和人类偏好评估。在自动化基准测试中，Gemma 2的27B模型与其他大小相近的模型相比表现出色，甚至与训练时间更长、参数量更大的模型竞争。在人类评估方面，Gemma 2模型在Chatbot Arena中的表现尤为突出，其中27B模型的Elo评分超过了多个竞争模型。

3. 知识蒸馏对小模型性能的影响

知识蒸馏是一种有效的技术，可以显著提升小模型的性能。通过使用大模型作为教师模型，小模型可以在训练过程中学习到更丰富的信息，从而提高其性能。例如，Gemma 2的2B和9B模型通过知识蒸馏训练，与以往版本相比，在多个基准测试中显示出了10%的性能提升。这证明了即使在相同的训练代币数量下，知识蒸馏也能显著提高模型的质量和效果。

安全性、隐私与责任

1. 模型的隐私保护与数据安全

在大型语言模型的开发和部署过程中，隐私保护和数据安全是不可或缺的考虑因素。Gemma 2模型在训练阶段采用了多种数据过滤技术，以减少不希望或不安全的表达的风险。特别是，它们过滤掉了某些个人信息或其他敏感数据，以防止这些数据在模型训练过程中被不当使用。此外，为了减少模型输出中的敏感信息，Gemma 2还实施了严格的输出监控机制，确保不会泄露用户的私人信息。

2. 安全政策与训练时的缓解措施

Gemma 2的开发团队采取了多项措施来确保模型的安全性，包括在模型的训练和微调阶段采用安全策略和缓解措施。这些措施旨在防止模型生成有害内容，例如儿童性虐待和剥削内容、揭露可能导致伤害的个人身份信息、仇恨言论和骚扰以及危险或恶意内容。通过这些综合性的安全策略，Gemma 2能够在多种使用场景中提供更为安全的应用保障。

3. 对模型潜在风险的评估与管理

对于Gemma 2模型的潜在风险，开发团队进行了全面的评估和管理。这包括使用外部基准评估模型的安全性能，以及运行保证评估来理解模型可能造成的伤害。例如，Gemma 2在多个安全基准上的表现优于先前的模型，特别是在儿童安全内容上的违规率显著降低。此外，团队还评估了模型在生物、放射性和核风险方面的知识水平，确保模型不会被用于不当用途。

通过这些综合性的措施，Gemma 2不仅在功能性能上有所提升，同时也在安全性、隐私保护和责任性方面设立了新的标准，确保技术的积极影响最大化，同时降低潜在的负面影响。

本文转载自，作者：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/baihuo725/33314.html