Sora_第21页_坚曼百货商行

幻觉检测数据集和评估指标缓解详解大规模基础模型中的幻觉问题任务

论文链接，https，arxiv.org，pdf，2405.09589总结速览解决的问题在大规模基础模型中，幻觉输出的生成是一个关键挑战，特别是在高风险应用中，这种倾向可能影响模型的可靠性和准确性，提出的方案建立了幻觉的精确定义和结构化分类，识别出导致不同模态中幻觉出现的关键因素和机制，提出了多模态...

2024-11-15 839

包包服装

谷歌&amp 旷视等开源Chat 编辑能力无上限！北航&amp

文章链接，https，arxiv.org，abs，2407.06842项目地址，https，sk，fun.fun，CE3D，代码，https，github.com，Fangkang515，CE3D，tree，main引言过去的3D场景编辑方法往往局限于固定的文本输入模式和有限的编辑能力，用户需要学习...

2024-11-15 157

包包服装

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉

文章链接，https，arxiv.org，pdf，2405.14093亮点直击本综述是关于具身智能领域中新兴的视觉，语言，动作模型的首次全面回顾，深度学习在许多领域中展现出了显著的成功，包括计算机视觉、自然语言处理和强化学习，这些领域的代表性人工神经网络涵盖了卷积神经网络、Transformer模型...

2024-11-15 893

资讯

多尺寸编辑质量更优首个基于DiT的图像编辑框架！DiT4Edit 抛弃UNet

文章链接，https，arxiv.org，pdf，2411.03286工程链接，https，github.com，fkyyyy，DiT4Edit，待开源，亮点直击总结速览解决的问题，现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足，相比之下，DiffusionTrans...

2024-11-15 209

生活科普

SAM2加持泛化任意3D场景可提示分割研究里程碑！SAM2Point 任意提示！ 3D

文章链接，https，arxiv.org，pdf，2408.16768在线demo，https，huggingface.co，spaces，ZiyuG，SAM2Pointcode链接，https，github.com，ZiyuGuo99，SAM2Point亮点直击今天和小伙伴们一起学习的是，这是一种...

2024-11-15 642

百货快讯

视觉效果超赞！随意画个草图就能生成3D交互游戏场景！腾讯XR出品

文章链接，https，arxiv.org，pdf，2408.04567项目地址，https，xrvisionlabs.github.io，Sketch2Scene，亮点直击3D内容生成是许多计算机图形应用的核心，包括视频游戏、电影制作、虚拟现实和增强现实等，本文提出了一种基于深度学习的创新方法，用于...

2024-11-15 256

头条

上交港中文新框架超越Instant3D 5秒完成3D生成真香合成数据集已开源

使用大模型合成的数据，就能显著提升3D生成能力，来自上海交大、香港中文大学等团队还真做到了，他们推出Bootstrap3D框架，结合微调的具备3D感知能力的多模态大模型，这个框架能够自动生成任意数量的高质量的多视角图片数据，助力多视图扩散模型的训练，结果表明，新的合成数据能够显著提高现有3D生成模型...

2024-11-15 511

生活资讯

视觉大模型在具身智能上还有很长的路要走！ Meta推出开放世界具身问答数据集OpenEQA

想象一个实体化的AI代理，充当家庭机器人的大脑或时尚的智能眼镜，这样的代理需要利用视觉等感知模态来理解周围环境，并能够用清晰、日常语言有效地与人交流，这类似于构建，世界模型，，即代理对外部世界的内部表示，可以通过语言查询，这是一个长期愿景和一个艰巨的研究挑战——Meta正在积极探索，近日，Meta发...

2024-11-15 915

百货

ECCV`24

论文链接，https，arxiv.org，abs，2407.16260亮点直击最近，文本到3D生成领域取得了显著进展，为了增强其在实际应用中的实用性，关键是生成具有交互作用的多个独立对象，类似于2D图像编辑中的图层合成，然而，现有的文本到3D方法在这一任务上存在困难，因为它们设计用于生成非独立对象或...

2024-11-15 540

百货

合成大规模高质量的Amortized文本到增强3D 只需ms！英伟达提出LATTE3D

文章链接，https，arxiv.org，pdf，2403.15385工程地址，https，research.nvidia.com，labs，toronto，ai，LATTE3D，最近的文本到3D生成方法产生了令人印象深刻的3D结果，但需要对耗时进行优化，每个提示可能需要长达一小时，像ATT3D的A...

2024-11-15 365

生活资讯

laws在视觉自回归模型上失效了谷歌联合MIT发布Fluid 文生图质量刷新纪录！ Scaling

文章链接，https，arxiv.org，pdf，2410.13863缩放法则，Scalinglaws，是大语言模型，LLMs，前所未有成功的基础，实证研究表明，在自回归模型中增加参数数量通常会显著提升性能，并在自然语言处理，NLP，任务中产生新的能力，这一实证关系激励了众多扩展语言模型的努力，导致...

2024-11-15 420

生活科普

阿里 LLM 针对大规模 HPN 训练的万卡集群

一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案；也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0，不过上述HPN7.0的相关介绍都是基于阿里官网或者之前的公开分享，最近阿里正式公...

2024-11-15 894

饰品装饰

13B和65B等背后的原因是什么大模型参数量都是7B

不知道大家有没有注意到现在大模型百花齐放，但是模型参数大小却非常一致，基本都是7B，13B，65B等，那么，为什么被设计成这么大呢，网络上有很多解释，笔者结合自己的理解，分享其中可能的原因，最直接的就是历史传承，因为最初OpenAI在就是这么干的，然后，Meta借鉴了OpenAI的做法，推出了lla...

2024-11-15 568

玩具模型

微信等提出多模态大语言模型EE 数据高效和计算高效全都要！中科大&amp

论文链接，https，arxiv.org，pdf，2408.11795亮点直击在多模态研究领域，许多研究利用大量图文对进行模态对齐学习，将大型语言模型，LLMs，转变为多模态LLMs，并在各种视觉语言任务中表现出色，现有的方法主要分为两类，基于自注意力的方法和基于交叉注意力的方法，虽然基于自注意力的...

2024-11-15 156