包含"模型"标签的文章
-
在12个视频理解任务中 Mamba先打败了Transformer
探索视频理解的新境界,Mamba模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型Mamba以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革,来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作,他们全面审视了Mamba在视频建模中的多重角...
-
11B和90B多模态模型 Llama3.2开源 Meta发布1B和3B端侧模型
早上起来发现,MetaAI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是首次开源了多模态大模型11B和90B两个版本;同时还开源了一个LlamaStack项目,Blog,https,ai.meta.com,blog,llama,3,2,connect,2024,vision,edge,mo...
-
Llama3.1系列模型正式开源 最大405B 闭源模型的统治时代将迎来结束
Meta开源了Llama3.1系列模型,最大参数规模为405B,开源也是好起来了,榜单指标直逼GPT4,o,开源追上闭源模型不再是梦!Llama系列模型确实是开源界的头部,真金白银砸出来的就是不一样,不过现在大家也都知道,榜单效果和真实使用效果也不是完全正比的,后面看看对lmsys战榜单,还有大家的...
-
将端侧大模型进行到底
面壁一直都在做端侧大模型,之前有文本系列MiniCPM,2B模型,还有多模态系列的MiniCPM,V系列模型,今天又开源了MiniCPM3,4B模型,真是端侧一路走到低,这次MiniCPM3,4B也是在效果上有了巨大的提升,超过Phi,3.5,mini,Instruct模型,肩比Llama3.1,8...
-
浅谈
今天给大家带来知乎好友@ybq一篇关于如何进行领域模型训练的文章,主要内容是对post,pretrain阶段进行分析,后续的Alignment阶段就先不提了,注意好老生常谈的,数据质量,和,数据多样性,即可,原文,https,zhuanlan.zhihu.com,p,711537210Qwen2,h...
-
但等来了Qwen2 没有等来Qwen2.5
Qwen2又出新作Math大模型,你值得拥有,我没有等来Qwen2.5,但等来了Qwen2,Math,在数学推理能力上大幅度提高,先来一张图阵阵场子,72B模型超过GPT4,o、Claude,3.5,Sonnet和Gemini,1.5,Pro,Blog,https,qwenlm.github.io,...
-
LLM实践系列
经过了数据收集、筛选、去重,马上就可以开始训练实验了,但是在实验之前,我们还需要先获取一个语言模型的基石,分词器,Tokenizer,Tokenizer的作用是对一条文本数据进行切分、词表映射,得到这条文本的token序列,用开源Tokenizer还是自己训练Tokenizer可以自己训练,也可以从...
-
GLM4模型开源 意料之中的尺寸 意料之外的效果
今天智谱开了GLM,4,9B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM,4,9B,、Chat版本模型,GLM,4,9B,Chat和GLM,4,9B,Chat,1M,和多模态模型,GLM,4V,9B,Chat,其中,模型为多语言模型除了支持中文、英文之外,还支持日语,韩语,...
-
大模型是泡沫吗
我个人对llm是一种很复杂的态度,毕竟,它真的击碎了我2023年之前所有的技术积累,以前在nlp苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧,好像在ChatGPT面前显得一文不值,不过,事情都有两面性,与我的技术一起被击碎的,还有我那一潭死水的工作内容,我不再是特征工程师——,花了几个月...
-
大模型微调终极指南
大家好,我是刘聪NLP,今天给大家带来一篇大模型微调相关的最新综述,主要大模型微调归纳为7个阶段分别为数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护,Paper,https,arxiv.org,abs,2408.13296模型微调,Fine,Tuning,就...
-
意料之中的尺寸 意料之外的效果 GLM4模型开源
写在前面今天智谱开了GLM,4,9B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM,4,9B,、Chat版本模型,GLM,4,9B,Chat和GLM,4,9B,Chat,1M,和多模态模型,GLM,4V,9B,Chat,其中,模型为多语言模型除了支持中文、英文之外,还支持日语...
-
你值得拥有!!! Qwen2.5系列模型开源
Ta来了,Ta来了,Ta带着7个Size的开源模型迎面走来了,是的,期待已久的Qwen2.5开源了,共有7个尺寸规模,包括,0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型,本次全是Dense模型,没有MoE模型,同时还开源了Qwen2.5,Coder...
-
100万上下文敞开用 谷歌最强大模型免费开放了!长音频理解功能独一份
谷歌最强大模型Gemini1.5Pro今天起,,全面,对外开放,目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AIStudio中直接体验,Ps.发布这则消息的谷歌工程师LoganKilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌,最让人期待的是,Gem...
-
以及新的开放前沿模型生态系统 3.1 战略 与Meta AI 的 解析Llama
今天,Meta发布了Llama3.1模型,延续了他们从最初的Llama3,预览版,开始就践行的开源理念,即尽早发布和频繁发布,Llama3.1模型有三种规模,8B、70B和长期传闻中的405B参数,对于其规模来说,这些模型是同类中最优秀的开源模型,4050亿参数模型直接与Anthropic的Clau...
-
大模型开始进入收益递减的时代
目前人们好像已在接受这样的观点,大语言模型,LLMs,正在以指数速度进步,就在几天前,宾州大学沃登商学院,TheWhartonSchool,的EthanMollick教授在一篇广受关注的博客文章中声称,,目前对LLMs的能力评估显示,LLM的能力每5到14个月翻一番,实际上Mollick教授引用的研...