包含"模型"标签的文章
-
文本生成超真实3D模型 浙大 蚂蚁集团推出MaPa
浙江大学、蚂蚁集团、深圳大学联合推出了创新模型MaPa,与传统纹理方法不同的是,MaPa通过文本能直接生成高分辨率、物理光照、超真实材质的3D模型,可以极大提升游戏、VR、AR、影视等行业的开发效率,研究人员在多个知名平台对MaPa进行了综合测试,结果显示,在无参考图像的情况下MaPa生成的模型材质...
-
Lumina
近年来,随着扩散模型在生成任务中的广泛应用,它们已经成为了生成式人工智能领域的重要组成部分,从StableDiffusion到Sora,这些模型在生成真实图像和视频方面取得了显著成功,标志着从经典U,Net架构向基于Transformer的扩散主干架构的转变,最新的进展是Lumina,T2X系列模型...
-
StaR 显著提升模型复杂推理 用少量推理数据让模型学会通用推理能力
今天分享GoogleResearch的一篇文章,可能OpenAIo1也采用了类似的技术,标题是STaR,BootstrappingReasoningWithReasoning,这篇文章提出了一种利用语言模型自我生成推理的技术,称为,Self,TaughtReasoner,STaR,该技术通过迭代地利...
-
T
AIAgent,智能体,作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程,为了能全面评估模型的工具使用能力,司南及合作伙伴团队推出了T,Eval评测基准,相关成果论文已被ACL2024主会录用,查看原文,https,arxiv.org,abs,2312.14033...
-
Nemotron
1.最强开源模型要易主了,2天前,英伟达发布了其最强大语言模型Nemotron,4340B模型家族,包括Nemotron,4,340B,Base、Nemotron,4,340B,Instruct和Nemotron,4,340B,Reward,所有的模型都是基于NVIDIA的开源模型许可协议,允许用户...
-
解读AI大模型 从了解token开始
什么是Transformer,Transformer是一种新颖的神经网络架构,它在2017年由Google的研究人员提出,用于解决机器翻译等自然语言处理的任务,Transformer的特点是,它完全摒弃了传统的循环神经网络,RNN,和卷积神经网络,CNN,,而是采用了一种称为自注意力机制,Self,...
-
技术报告 DeepMind推出Gemma 我们一起聊聊Google 2
引言,大规模语言模型的发展与挑战近年来,大规模语言模型,LLMs,在语言理解、生成和推理方面展现出了强大的能力,随着模型规模的不断扩大,新的能力也逐渐显现,最新的大型模型不仅在推理基准测试上达到了前所未有的性能,还展示了多模态和多语言的能力,甚至能处理超过1M个令牌的上下文长度,尽管小规模模型的性能...
-
Gemini等多模态大模型竟都没什么视觉感知能力 14 GPT4V 项任务测下来
2023,2024年,以GPT,4V、Gemini、Claude、LLaVA为代表的多模态大模型,MultimodalLLMs,已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮,然而,对于这些模型的评测多集中于语言上的任务,对于视觉的要求多为简单的物体识别,相对的,计算机视觉最...
-
大语言模型在不同自然语言处理任务中的提示工程方法综述
一、结论写在前面论文标题,ASurveyofPromptEngineeringMethodsinLargeLanguageModelsforDifferentNLPTasks论文链接,https,arxiv.org,pdf,2407.12994大型语言模型,LLMs,在众多不同的自然语言处...
-
Transformer频域消偏提升时序预测准确性
Transformer在时间序列中已经应用比较广泛,但是最近一些针对Transformer的研究工作指出,Transformer的self,attention机制在建模序列数据时,比较倾向于学习低频的信息,而忽略了高频信息,造成频率偏差问题,影响了预测效果,在时间序列预测中,这个问题也存在,为了解决...
-
如何高效定制视频扩散模型 卡内基梅隆提出VADER 通过奖励梯度进行视频扩散对齐
论文链接,https,arxiv.org,pdf,2407.08737git链接,https,vader,vid.github.io,目前已经在建立基础视频扩散模型方面取得了显著进展,由于这些模型是使用大规模无监督数据进行训练的,因此将这些模型调整到特定的下游任务变得至关重要,通过监督微调来适应这些...
-
卡内基梅隆& 北大& FGM 刷新流匹配模型单步文本到图像生成纪录! 浙大& 西湖大学
文章链接,https,arxiv.org,pdf,2410.19310亮点直击总结速览解决的问题在AIGC领域中,流匹配模型因其坚实的理论基础和强大的大规模生成能力而取得了显著成功,然而,这些模型的采样过程对计算资源要求极高,因为它们需要多步数值常微分方程,ODEs,的计算,提出的方案本文提出了一种...
-
效果超越Gen 10倍速度突破质量瓶颈
论文链接,https,arxiv.org,pdf,2405.18750项目链接,https,t2v,turbo.github.io,基于扩散的文本到视频,T2V,模型取得了显著的成功,但仍然受到迭代采样过程速度缓慢的影响,为了解决这一挑战,一些一致性模型被提出来促进快速推理,尽管以牺牲样本质量为代价...
-
YOLOv9 深度解析新一代实时目标检测王者
随着人工智能技术的飞速发展,计算机视觉领域迎来了一个又一个里程碑式的突破,其中,实时目标检测作为计算机视觉的重要分支,更是取得了举世瞩目的成就,在众多实时目标检测模型中,YOLO系列凭借其卓越的性能和广泛的应用场景,一直是业界的佼佼者,而今天,我们将要探讨的,正是YOLO系列中的最新成员——YOLO...
-
具身智能体三维感知新链条 Lab提出多视角融合具身模型 上海AI SAM & TeleAI
当我们拿起一个机械手表时,从正面会看到表盘和指针,从侧面会看到表冠和表链,打开手表背面会看到复杂的齿轮和机芯,每个视角都提供了不同的信息,将这些信息综合起来才能理解操作对象的整体三维,想让机器人在现实生活中学会执行复杂任务,首先需要使机器人理解操作对象和被操作对象的属性,以及相应的三维操作空间,包括...