Emu3 统一多模态输入与生成

作者： • 更新时间：2024-11-15 •阅读

Emu3 在生成和感知任务中超越了多个任务的专用模型，表现优于主流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2，同时不需要基于Diffison或组合多种不同架构。

Emu3 能够根据文本输入生成高质量的图像，通过简单地预测下一个视觉标记来实现。该模型自然支持灵活的分辨率和风格。

Emu3 展现出强大的视觉语言理解能力，能够感知物理世界并提供连贯的文本响应。值得注意的是，这种能力是在不依赖 CLIP 和预训练 LLM 的情况下实现的。

Emu3 通过预测视频序列中的下一个token来因果生成视频，与 Sora 的视频扩散模型不同。在上下文中有视频的情况下，Emu3 还能自然延伸视频并预测接下来会发生什么。

方法

Emu3 采用混合语言、图像和视频数据从零开始进行训练。语言数据来自 Aquila 的高质量中英文语料库。图像数据经过精心筛选，确保分辨率和美学质量，使用 LAION-AI 的美学预测工具过滤，并结合来自 DenseFusion 的补充数据。视频数据涵盖多种类别，经过分段、文本检测和运动评估，以确保视频质量。最后利用 GPT-4V 为图像和视频生成文本标注。

模型采用 SBER-MoVQGAN 训练视觉编码器，实现高效的视频和图像编码。预训练和后训练过程中，Emu3 集成文本和视觉信息，通过下一标记预测任务优化生成质量，并运用直接偏好优化（DPO）提升模型与人类偏好的对齐。最终，模型通过图像-文本训练和指令调优增强视觉语言理解能力。

能力

视频生成

未来帧预测

多模态对话

原文链接：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/shenghuokepu/33478.html

Emu3 统一多模态输入与生成

方法

能力

视频生成

未来帧预测

多模态对话

相关推荐

联系我们