包含"训练"标签的文章
-
清华AIR 无需训练数据!合并多个模型实现任意场景的感知 ECCV24 ModelMerging
近日,来自清华大学智能产业研究院,AIR,助理教授赵昊老师的团队,联合戴姆勒公司,提出了一种无需训练的多域感知模型融合新方法,研究重点关注场景理解模型的多目标域自适应,并提出了一个挑战性的问题,如何在无需训练数据的条件下,合并在不同域上独立训练的模型实现跨领域的感知能力,团队给出了,MergingP...
-
面向无信号交叉口的自动驾驶解决方案!涵盖强化学习的超全综述!
写在前面&,笔者的个人理解目前,自动驾驶系统的发展愈发的成熟,但在无信号交叉路口的自动驾驶技术仍然被认为是机器学习的一个具有挑战性的应用,因为处理具有高度不确定性的复杂多智能体场景对于模型而言还是非常复杂的,因此,如何在这些无信号的交叉路口等安全关键环境中实现决策过程的自动化涉及场景理...
-
30秒生成建模师级Mesh!最大可生成面数提升至1600 GitHub揽星1.9k项目发布V2版本
只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh,NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下,点云造出精细Mesh,DenseMesh基础上生成也可以,一张图,甚至文本描述就足够了,GitHub已揽星1.9k的MeshAnything项...
-
多模态大语言模型综述 8.3K Stars 重大升级
去年6月底,我们在arXiv上发布了业内首篇多模态大语言模型领域的综述,ASurveyonMultimodalLargeLanguageModels,,系统性梳理了多模态大语言模型的进展和发展方向,目前论文引用120,,开源GitHub项目获得,自论文发布以来,我们收到了很多读者非常宝贵的意见,感谢...
-
最高1410亿参数 专用于法律的两个开源大模型
法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型——SaulLM,SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本,SaulLM的最大特色是使用了5亿token的专业法律数据进行了预训练,包括美国、欧洲、澳大利亚等地的法律文本,输出内容...
-
2来了 再战Transformer!原作者带队的Mamba 新架构训练效率大幅提升
自2017年被提出以来,Transformer已经成为AI大模型的主流架构,一直稳居语言建模方面C位,但随着模型规模的扩展和需要处理的序列不断变长,Transformer的局限性也逐渐凸显,一个很明显的缺陷是,Transformer模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,几个月...
-
清华大学提出1
在深度神经网络的训练过程中,全量化训练,FullyQuantizedTraining,FQT,通过将激活值、权重和梯度量化到较低的精度,显著加速了训练过程,随着对训练数值精度的不断压缩,一个自然而然的问题浮现出来,全量化训练的极限是什么,即,能够实现的最低位宽是多少,理想情况下,如果能将位宽压缩到1...
-
Meta等最新研究 多token预测 提升大模型推理效率
GPT,4、Gemini系列、Llama,3等开闭源大模型,通常使用的是下一个token预测,Next,tokenPrediction,的损失函数进行预训练,这种方法虽然强大,但有很多局限性,例如,需要大量的训练数据才能使模型达到人类儿童的智商,并且随着模型参数的增大推理效率会变差,因此,Meta、...
-
腾讯& 提升文生图模型实例特征和位置生成准确性 即插即用 新加坡国立发布IFAdapter
文章链接,https,arxiv.org,pdf,2409.08240项目链接,https,ifadapter.github.io,总结速览解决的问题,传统的文本生成图像,T2I,扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战,尽管布局生成图像,L2I,任务通过使用边界...
-
如何高效定制视频扩散模型 卡内基梅隆提出VADER 通过奖励梯度进行视频扩散对齐
论文链接,https,arxiv.org,pdf,2407.08737git链接,https,vader,vid.github.io,目前已经在建立基础视频扩散模型方面取得了显著进展,由于这些模型是使用大规模无监督数据进行训练的,因此将这些模型调整到特定的下游任务变得至关重要,通过监督微调来适应这些...
-
阿里 LLM 针对大规模 HPN 训练的万卡集群
一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案;也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0,不过上述HPN7.0的相关介绍都是基于阿里官网或者之前的公开分享,最近阿里正式公...
-
框架发布 ARCADE 教机器人倒水是融入生活的第一步!AR收集和生成演示
文章链接,https,arxiv.org,pdf,2410.15994项目链接,https,yy,gx.github.io,ARCADE,总结速览解决的问题,机器人模仿学习面临两个主要的可扩展性挑战,非用户友好的演示收集方式和大量时间积累足够的演示样本以进行有效训练,提出的方案,引入了ARCADE框...
-
2024 ECCV
论文一作兰宇时为南洋理工大学,NTU,博士生,导师为ChenChangeLoy,本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑,在ECCV2024中,来自南洋理工大学S,Lab、上海AILab以及北京大学的研究者提出了一种原生3DLDM生成框架,具体来讲,他们针...
-
浅谈
今天给大家带来知乎好友@ybq一篇关于如何进行领域模型训练的文章,主要内容是对post,pretrain阶段进行分析,后续的Alignment阶段就先不提了,注意好老生常谈的,数据质量,和,数据多样性,即可,原文,https,zhuanlan.zhihu.com,p,711537210Qwen2,h...
-
进化2.0!一键跟踪运动物体 代码权重数据全开源 分割一切
又是发布即开源!Meta,分割一切AI,二代在SIGGRAPH上刚刚亮相,相较于上一代,它的能力从图像分割拓展到视频分割,可实时处理任意长视频,视频中没见过的对象也能轻松分割追踪,更关键的是,模型代码、权重以及数据集通通开源!它和Llama系列一样遵循Apache2.0许可协议,并根据BSD,3许可...