1. 首页 > 娱乐 > 生活科普

Emu3 统一多模态输入与生成

Emu3 在生成和感知任务中超越了多个任务的专用模型,表现优于主流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同时不需要基于Diffison或组合多种不同架构。

Emu3 能够根据文本输入生成高质量的图像,通过简单地预测下一个视觉标记来实现。该模型自然支持灵活的分辨率和风格。

Emu3 展现出强大的视觉语言理解能力,能够感知物理世界并提供连贯的文本响应。值得注意的是,这种能力是在不依赖 CLIP 和预训练 LLM 的情况下实现的。

Emu3 通过预测视频序列中的下一个token来因果生成视频,与 Sora 的视频扩散模型不同。在上下文中有视频的情况下,Emu3 还能自然延伸视频并预测接下来会发生什么。

方法

Emu3 采用混合语言、图像和视频数据从零开始进行训练。语言数据来自 Aquila 的高质量中英文语料库。图像数据经过精心筛选,确保分辨率和美学质量,使用 LAION-AI 的美学预测工具过滤,并结合来自 DenseFusion 的补充数据。视频数据涵盖多种类别,经过分段、文本检测和运动评估,以确保视频质量。最后利用 GPT-4V 为图像和视频生成文本标注。

模型采用 SBER-MoVQGAN 训练视觉编码器,实现高效的视频和图像编码。预训练和后训练过程中,Emu3 集成文本和视觉信息,通过下一标记预测任务优化生成质量,并运用直接偏好优化(DPO)提升模型与人类偏好的对齐。最终,模型通过图像-文本训练和指令调优增强视觉语言理解能力。

能力

视频生成

未来帧预测

多模态对话

原文链接:​ ​​ ​

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/shenghuokepu/33478.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息