包含"图像生成"标签的文章
-
InstantID又有了新玩法 风格化图像生成 曾爆火的 已开源
风格化图像生成,也常称为风格迁移,其目标是生成与参考图像风格一致的图像,此前基于diffusion的方法,比如LoRA,通常需要批量的同风格数据进行训练,无法迁移到新的风格中,或者基于inversion,如StyleAlign,,通过将风格图像还原到latentnoise后,将其前向传播得到的K、V...
-
编辑 入门必读!多模态大语言模型的演变全回顾! 图像生成 理解 视觉定位
文章链接,https,arxiv.org,abs,2402.12451连接文本和视觉模态在生成式AI中起着至关重要的作用,受到大语言模型,本文简称LLM,成功的启发,人们正在致力于开发多模态大语言模型,MLLMs,这些模型可以无缝地集成视觉和文本模态,既作为输入又作为输出,同时提供基于对话的界面和指...
-
一分钟搞定任意数量视图到3D场景重建 谷歌重磅发布CAT3D
论文链接,https,arxiv.org,pdf,2405.10314项目链接,https,cat3d.github.io,3D重建的进步使得高质量的3D捕捉成为可能,但需要用户收集数百到数千张图像来创建一个3D场景,本文提出了CAT3D,一种通过多视点扩散模型模拟这种现实世界捕捉过程的方法,可以在...
-
在图像生成领域 自回归可以打败扩散模型吗
图像生成领域,有这么几种方法,Flow,Based、GAN,Based、VAE,Pixel,CNN系列、扩散模型自回归,更早期的是基于自编码器的图像生成,各种Auto,Encoder模型,以及影响很大的变分自编码器d,VAE,后面又有Flow,Based,不过似乎Flow,Based引起的注意不是那...
-
Mistral 谷歌& AI发布TIPS 具有空间意识的文本
文章链接,https,arxiv.org,pdf,2410.16512亮点直击具有空间意识的文本图像预训练,TIPS是一种通用的图像,文本编码器模型,可有效用于密集和全局理解,用于纯视觉或视觉语言任务,整体应用流程见下图,总结速览解决的问题现有的图像,文本表示学习模型通常缺乏空间意识,难以直接用于密...
-
让移动成像技术飞跃 颜水成团队新作 AI手机迎来重大技术进展!Meissonic
文章链接,https,arxiv.org,pdf,2410.08261模型链接,https,huggingface.co,MeissonFlow,Meissonic在线Demo链接,https,huggingface.co,spaces,MeissonFlow,meissonic亮点直击,惊艳的效果...
-
罗切斯特大学& 图像编辑多任务一网打尽!PromptFix 微软 大规模视觉指令数据集 新型扩散模型&
文章链接,https,arxiv.org,pdf,2405.16785项目链接,https,www.yongshengyu.com,PromptFix,Page总结速览解决的问题,现有扩散模型在处理自定义用户指令时缺乏多样化数据,尤其是在低级任务中表现不足,此外,扩散过程的随机性导致难以保留生成图像...
-
自回归生成最新SOTA! 首次超越扩散模型和非自回归Transformer模型!字节开源RAR
文章链接,https,arxiv.org,pdf,2411.00776项目链接,https,yucornetto.github.io,projects,rar.html代码&,模型链接,https,github.com,bytedance,1d,tokenizer亮点直击总结速览解决的...
-
无需昂贵标注!大幅提升SDXL和SD3
文章链接,https,arxiv.org,pdf,2410.18013亮点直击总结速览解决的问题传统的直接偏好优化,DPO,方法依赖大量人工标注的数据集来对文本生成图像,T2I,模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求,提出的方案本研究提出一种完全合成的数据...