包含"GPT"标签的文章
-
Anything模型变体 首篇!全面解读高效Segment 各种图像分割加速策略和核心技术展示
文章链接,https,arxiv.org,pdf,2410.04960亮点直击SegmentAnythingModel,SAM,是一款基础模型,专用于图像分割任务,以其在多样应用中的强大泛化能力而闻名,然而,它的出色性能伴随着显著的计算和资源需求,这使得在资源有限的环境,如移动设备,中进行部署变得具...
-
幻觉检测 数据集和评估指标 缓解 详解大规模基础模型中的幻觉问题 任务
论文链接,https,arxiv.org,pdf,2405.09589总结速览解决的问题在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中,这种倾向可能影响模型的可靠性和准确性,提出的方案建立了幻觉的精确定义和结构化分类,识别出导致不同模态中幻觉出现的关键因素和机制,提出了多模态...
-
谷歌& 旷视等开源Chat 编辑能力无上限!北航&
文章链接,https,arxiv.org,abs,2407.06842项目地址,https,sk,fun.fun,CE3D,代码,https,github.com,Fangkang515,CE3D,tree,main引言过去的3D场景编辑方法往往局限于固定的文本输入模式和有限的编辑能力,用户需要学习...
-
具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉
文章链接,https,arxiv.org,pdf,2405.14093亮点直击本综述是关于具身智能领域中新兴的视觉,语言,动作模型的首次全面回顾,深度学习在许多领域中展现出了显著的成功,包括计算机视觉、自然语言处理和强化学习,这些领域的代表性人工神经网络涵盖了卷积神经网络、Transformer模型...
-
多尺寸编辑质量更优 首个基于DiT的图像编辑框架!DiT4Edit 抛弃UNet
文章链接,https,arxiv.org,pdf,2411.03286工程链接,https,github.com,fkyyyy,DiT4Edit,待开源,亮点直击总结速览解决的问题,现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足,相比之下,DiffusionTrans...
-
SAM2加持泛化任意3D场景 可提示 分割研究里程碑!SAM2Point 任意提示! 3D
文章链接,https,arxiv.org,pdf,2408.16768在线demo,https,huggingface.co,spaces,ZiyuG,SAM2Pointcode链接,https,github.com,ZiyuGuo99,SAM2Point亮点直击今天和小伙伴们一起学习的是,这是一种...
-
视觉效果超赞!随意画个草图就能生成3D交互游戏场景!腾讯XR出品
文章链接,https,arxiv.org,pdf,2408.04567项目地址,https,xrvisionlabs.github.io,Sketch2Scene,亮点直击3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟现实和增强现实等,本文提出了一种基于深度学习的创新方法,用于...
-
上交港中文新框架超越Instant3D 5秒完成3D生成 真香合成数据集已开源
使用大模型合成的数据,就能显著提升3D生成能力,来自上海交大、香港中文大学等团队还真做到了,他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型,这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练,结果表明,新的合成数据能够显著提高现有3D生成模型...
-
视觉大模型在具身智能上还有很长的路要走! Meta推出开放世界具身问答数据集OpenEQA
想象一个实体化的AI代理,充当家庭机器人的大脑或时尚的智能眼镜,这样的代理需要利用视觉等感知模态来理解周围环境,并能够用清晰、日常语言有效地与人交流,这类似于构建,世界模型,,即代理对外部世界的内部表示,可以通过语言查询,这是一个长期愿景和一个艰巨的研究挑战——Meta正在积极探索,近日,Meta发...
-
ECCV`24
论文链接,https,arxiv.org,abs,2407.16260亮点直击最近,文本到3D生成领域取得了显著进展,为了增强其在实际应用中的实用性,关键是生成具有交互作用的多个独立对象,类似于2D图像编辑中的图层合成,然而,现有的文本到3D方法在这一任务上存在困难,因为它们设计用于生成非独立对象或...
-
合成 大规模高质量的Amortized文本到增强3D 只需ms!英伟达提出LATTE3D
文章链接,https,arxiv.org,pdf,2403.15385工程地址,https,research.nvidia.com,labs,toronto,ai,LATTE3D,最近的文本到3D生成方法产生了令人印象深刻的3D结果,但需要对耗时进行优化,每个提示可能需要长达一小时,像ATT3D的A...
-
laws在视觉自回归模型上失效了 谷歌联合MIT发布Fluid 文生图质量刷新纪录! Scaling
文章链接,https,arxiv.org,pdf,2410.13863缩放法则,Scalinglaws,是大语言模型,LLMs,前所未有成功的基础,实证研究表明,在自回归模型中增加参数数量通常会显著提升性能,并在自然语言处理,NLP,任务中产生新的能力,这一实证关系激励了众多扩展语言模型的努力,导致...
-
阿里 LLM 针对大规模 HPN 训练的万卡集群
一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案;也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0,不过上述HPN7.0的相关介绍都是基于阿里官网或者之前的公开分享,最近阿里正式公...
-
13B和65B等背后的原因是什么 大模型参数量都是7B
不知道大家有没有注意到现在大模型百花齐放,但是模型参数大小却非常一致,基本都是7B,13B,65B等,那么,为什么被设计成这么大呢,网络上有很多解释,笔者结合自己的理解,分享其中可能的原因,最直接的就是历史传承,因为最初OpenAI在就是这么干的,然后,Meta借鉴了OpenAI的做法,推出了lla...
-
微信等提出多模态大语言模型EE 数据高效和计算高效全都要!中科大&
论文链接,https,arxiv.org,pdf,2408.11795亮点直击在多模态研究领域,许多研究利用大量图文对进行模态对齐学习,将大型语言模型,LLMs,转变为多模态LLMs,并在各种视觉语言任务中表现出色,现有的方法主要分为两类,基于自注意力的方法和基于交叉注意力的方法,虽然基于自注意力的...