模型_第12页_坚曼百货商行

在12个视频理解任务中 Mamba先打败了Transformer

探索视频理解的新境界，Mamba模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型Mamba以其在长序列处理上的独特优势，为视频理解领域带来了革命性的变革，来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作，他们全面审视了Mamba在视频建模中的多重角...

2024-11-15 707

行业热门

11B和90B多模态模型 Llama3.2开源 Meta发布1B和3B端侧模型

早上起来发现，MetaAI又开源模型，文本模型开源了端侧小模型1B和3B模型，也是首次开源了多模态大模型11B和90B两个版本；同时还开源了一个LlamaStack项目，Blog，https，ai.meta.com，blog，llama，3，2，connect，2024，vision，edge，mo...

2024-11-15 582

百货快讯

Llama3.1系列模型正式开源最大405B 闭源模型的统治时代将迎来结束

Meta开源了Llama3.1系列模型，最大参数规模为405B，开源也是好起来了，榜单指标直逼GPT4，o，开源追上闭源模型不再是梦！Llama系列模型确实是开源界的头部，真金白银砸出来的就是不一样，不过现在大家也都知道，榜单效果和真实使用效果也不是完全正比的，后面看看对lmsys战榜单，还有大家的...

2024-11-15 346

生活科普

将端侧大模型进行到底

面壁一直都在做端侧大模型，之前有文本系列MiniCPM，2B模型，还有多模态系列的MiniCPM，V系列模型，今天又开源了MiniCPM3，4B模型，真是端侧一路走到低，这次MiniCPM3，4B也是在效果上有了巨大的提升，超过Phi，3.5，mini，Instruct模型，肩比Llama3.1，8...

2024-11-15 255

娱乐八卦

浅谈

今天给大家带来知乎好友@ybq一篇关于如何进行领域模型训练的文章，主要内容是对post，pretrain阶段进行分析，后续的Alignment阶段就先不提了，注意好老生常谈的，数据质量，和，数据多样性，即可，原文，https，zhuanlan.zhihu.com，p，711537210Qwen2，h...

2024-11-15 601

生活科普

但等来了Qwen2 没有等来Qwen2.5

Qwen2又出新作Math大模型，你值得拥有，我没有等来Qwen2.5，但等来了Qwen2，Math，在数学推理能力上大幅度提高，先来一张图阵阵场子，72B模型超过GPT4，o、Claude，3.5，Sonnet和Gemini，1.5，Pro，Blog，https，qwenlm.github.io，...

2024-11-15 227

百货快讯

LLM实践系列

经过了数据收集、筛选、去重，马上就可以开始训练实验了，但是在实验之前，我们还需要先获取一个语言模型的基石，分词器，Tokenizer，Tokenizer的作用是对一条文本数据进行切分、词表映射，得到这条文本的token序列，用开源Tokenizer还是自己训练Tokenizer可以自己训练，也可以从...

2024-11-15 974

百货快讯

GLM4模型开源意料之中的尺寸意料之外的效果

今天智谱开了GLM，4，9B的模型，不是6B，是9B，一共开源了四个模型，Base版本模型，GLM，4，9B，、Chat版本模型，GLM，4，9B，Chat和GLM，4，9B，Chat，1M，和多模态模型，GLM，4V，9B，Chat，其中，模型为多语言模型除了支持中文、英文之外，还支持日语，韩语，...

2024-11-15 355

百货快讯

大模型是泡沫吗

我个人对llm是一种很复杂的态度，毕竟，它真的击碎了我2023年之前所有的技术积累，以前在nlp苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧，好像在ChatGPT面前显得一文不值，不过，事情都有两面性，与我的技术一起被击碎的，还有我那一潭死水的工作内容，我不再是特征工程师——，花了几个月...

2024-11-15 569

新闻资讯

大模型微调终极指南

大家好，我是刘聪NLP，今天给大家带来一篇大模型微调相关的最新综述，主要大模型微调归纳为7个阶段分别为数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护，Paper，https，arxiv.org，abs，2408.13296模型微调，Fine，Tuning，就...

2024-11-15 507

玩具模型

意料之中的尺寸意料之外的效果 GLM4模型开源

写在前面今天智谱开了GLM，4，9B的模型，不是6B，是9B，一共开源了四个模型，Base版本模型，GLM，4，9B，、Chat版本模型，GLM，4，9B，Chat和GLM，4，9B，Chat，1M，和多模态模型，GLM，4V，9B，Chat，其中，模型为多语言模型除了支持中文、英文之外，还支持日语...

2024-11-15 847

其他百货

你值得拥有！！！ Qwen2.5系列模型开源

Ta来了，Ta来了，Ta带着7个Size的开源模型迎面走来了，是的，期待已久的Qwen2.5开源了，共有7个尺寸规模，包括，0.5B、1.5B、3B、7B、14B、32B和72B，分别有Base模型和Instruct模型，本次全是Dense模型，没有MoE模型，同时还开源了Qwen2.5，Coder...

2024-11-15 216

生活资讯

100万上下文敞开用谷歌最强大模型免费开放了！长音频理解功能独一份

谷歌最强大模型Gemini1.5Pro今天起，，全面，对外开放，目前完全免费，开发者可以通过API调用的方式使用，普通玩家也可以在谷歌AIStudio中直接体验，Ps.发布这则消息的谷歌工程师LoganKilpatrick正是原来OpenAI开发者关系的负责人，刚刚跳槽到谷歌，最让人期待的是，Gem...

2024-11-15 899

娱乐八卦

以及新的开放前沿模型生态系统 3.1 战略与Meta AI 的解析Llama

今天，Meta发布了Llama3.1模型，延续了他们从最初的Llama3，预览版，开始就践行的开源理念，即尽早发布和频繁发布，Llama3.1模型有三种规模，8B、70B和长期传闻中的405B参数，对于其规模来说，这些模型是同类中最优秀的开源模型，4050亿参数模型直接与Anthropic的Clau...

2024-11-15 127

饰品装饰

大模型开始进入收益递减的时代

目前人们好像已在接受这样的观点，大语言模型，LLMs，正在以指数速度进步，就在几天前，宾州大学沃登商学院，TheWhartonSchool，的EthanMollick教授在一篇广受关注的博客文章中声称，，目前对LLMs的能力评估显示，LLM的能力每5到14个月翻一番，实际上Mollick教授引用的研...

2024-11-15 330

包含"模型"标签的文章

在12个视频理解任务中 Mamba先打败了Transformer

11B和90B多模态模型 Llama3.2开源 Meta发布1B和3B端侧模型

Llama3.1系列模型正式开源最大405B 闭源模型的统治时代将迎来结束

将端侧大模型进行到底

浅谈

但等来了Qwen2 没有等来Qwen2.5

LLM实践系列

GLM4模型开源意料之中的尺寸意料之外的效果

大模型是泡沫吗

大模型微调终极指南

意料之中的尺寸意料之外的效果 GLM4模型开源

你值得拥有！！！ Qwen2.5系列模型开源

100万上下文敞开用谷歌最强大模型免费开放了！长音频理解功能独一份

以及新的开放前沿模型生态系统 3.1 战略与Meta AI 的解析Llama

大模型开始进入收益递减的时代

联系我们