1. 首页 > 娱乐

Google开源大模型新成员CodeGemma RecurrentGemma 继Transformer后新架构Griffin诞生

2024年2月,Google推出了 Gemma, 一系列轻量级、先进的开源大模型,这些模型是使用创建 Gemini 模型时所使用的相同研究和技术构建的

近日,Google宣布了 Gemma 家族的首批新增成员,为机器学习开发者扩展了创新责任的可能性:用于代码补全和生成任务以及指令跟随,以及 RecurrentGemma ,用于研究实验的效率优化架构。

新成员之CodeGemma

为开发者和企业提供的代码补全、生成和聊天利用 Gemma 模型的基础,CodeGemma 为社区带来了强大而轻量级的编码能力。CodeGemma 模型提供了几个优势:

这张表比较了 CodeGemma 在单行和多行代码补全任务上与其他类似模型的性能。在技术报告中了解更多信息。

新成员之RecurrentGemma

为研究人员提供高效、更快速的推断,在更高的批次大小下RecurrentGemma 是一个在技术上独特的模型,利用 循环神经网络和本地注意力来提高内存效率 。虽然 RecurrentGemma 达到了与 Gemma 2B 模型相似的基准分数性能,但其独特的架构带来了几个优势:

这张图展示了 RecurrentGemma 如何在序列长度增加时保持其采样速度,而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。

RecurrentGemma基于新架构Griffin

RecurrentGemma是基于一种全新 Griffin 架构的模型,其性能优于 Transformers。

在多个规模上,Griffin 在控制测试中的基准得分均优于 Transformers 基线,无论是在不同参数规模下的 MMLU得分,还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率优势,具有更快的推断速度和更低的内存使用率。以下是 Huggingface 上发布了这个模型的 2B 版本的性能:

参考: ​ ​​ ​

Griffin论文: ​ ​​ ​

原文链接:​ ​​ ​

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/yule/32683.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息