LLM集中爆发的一周 Open 卷疯了！

开源大模型领域热闹非凡的一周，各种开源，PaperAgent进行了概括： 端侧、Code、RAG、Agent、Reflection（反思纠正）、MoE ，你关注的都在这里了。

Reflection Llama-3.1-70B 开源

ReflectionLlama-3.1 70B是世界上顶尖的Open LLM，通过反思微调技术（ Reflection-Tuning ）训练，能够检测并纠正推理错误，具有很高的热度，Hugging Face热门排行Top1。

Agent中需要LLM具有很强的推理规划能力 ，这种反思技术训练的模型是否很契合Agent尼？有待进一步验证

从实验对结果看，是击败GPT-4o、Claude 3.5 Sonnet，遥遥领先的，更强405B版本 预计下周推出，非常期待


 面壁小钢炮MiniCPM 3.0开源


 面壁智能开源新一代全面开挂的小钢炮，4B规模达到ChatGPT级能力：



 零一万物Yi-Coder系列模型开源


 Yi-Coder 有两种规模——
 
  15亿和90亿参数
 
 ——提供基础版和聊天版，旨在实现高效的推理和灵活的训练。值得注意的是，Yi-Coder-9B 在 Yi-9B 的基础上，额外增加了2.4万亿高质量的标记，这些标记精心挑选自 GitHub 上的代码库级别的代码语料库，以及从 CommonCrawl 筛选出的与代码相关的数据。



 Yi-Coder 的关键特性包括：


 DeepSeek-V2.5版本发布


 DeepSeek-V2.5 是一个升级版本，它结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。这个新模型整合了前两个版本的通用和编码能力。



 DeepSeek-V2.5 更好地符合人类的偏好，并在多个方面进行了优化，包括写作和指令遵循：



 首个完全开源MoE大模型：OLMoE


 OLMoE-1B-7B 是一个具有10亿活跃参数和70亿总参数的专家混合（
 
  Mixture-of-Experts
 
 ）大型语言模型（LLM），于
 
  2024年9月（0924）发布
 
 。它在成本相似（10亿）的模型中提供了最先进的性能，并且与像 Llama2-13B 这样的更大模型具有竞争力。
 
  OLMoE 是100%开源的
 
 。


 
  开放 MoE 和密集型语言模型（LMs）的性能、成本和开放程度
 


checkpoints:https://arxiv.org/pdf/2409.02060code ：：：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/muyingyongpin/32914.html

LLM集中爆发的一周 Open 卷疯了！

Reflection Llama-3.1-70B 开源

面壁小钢炮MiniCPM 3.0开源

零一万物Yi-Coder系列模型开源

DeepSeek-V2.5版本发布

首个完全开源MoE大模型：OLMoE

相关推荐

联系我们