图像生成_坚曼百货商行

InstantID又有了新玩法风格化图像生成曾爆火的已开源

风格化图像生成，也常称为风格迁移，其目标是生成与参考图像风格一致的图像，此前基于diffusion的方法，比如LoRA，通常需要批量的同风格数据进行训练，无法迁移到新的风格中，或者基于inversion，如StyleAlign，，通过将风格图像还原到latentnoise后，将其前向传播得到的K、V...

2024-11-15 663

饰品装饰

编辑入门必读！多模态大语言模型的演变全回顾！图像生成理解视觉定位

文章链接，https，arxiv.org，abs，2402.12451连接文本和视觉模态在生成式AI中起着至关重要的作用，受到大语言模型，本文简称LLM，成功的启发，人们正在致力于开发多模态大语言模型，MLLMs，这些模型可以无缝地集成视觉和文本模态，既作为输入又作为输出，同时提供基于对话的界面和指...

2024-11-15 779

行业热门

一分钟搞定任意数量视图到3D场景重建谷歌重磅发布CAT3D

论文链接，https，arxiv.org，pdf，2405.10314项目链接，https，cat3d.github.io，3D重建的进步使得高质量的3D捕捉成为可能，但需要用户收集数百到数千张图像来创建一个3D场景，本文提出了CAT3D，一种通过多视点扩散模型模拟这种现实世界捕捉过程的方法，可以在...

2024-11-15 248

母婴用品

在图像生成领域自回归可以打败扩散模型吗

图像生成领域，有这么几种方法，Flow，Based、GAN，Based、VAE，Pixel，CNN系列、扩散模型自回归，更早期的是基于自编码器的图像生成，各种Auto，Encoder模型，以及影响很大的变分自编码器d，VAE，后面又有Flow，Based，不过似乎Flow，Based引起的注意不是那...

2024-11-15 132

百货

Mistral 谷歌&amp AI发布TIPS 具有空间意识的文本

文章链接，https，arxiv.org，pdf，2410.16512亮点直击具有空间意识的文本图像预训练，TIPS是一种通用的图像，文本编码器模型，可有效用于密集和全局理解，用于纯视觉或视觉语言任务，整体应用流程见下图，总结速览解决的问题现有的图像，文本表示学习模型通常缺乏空间意识，难以直接用于密...

2024-11-14 813

资讯

让移动成像技术飞跃颜水成团队新作 AI手机迎来重大技术进展！Meissonic

文章链接，https，arxiv.org，pdf，2410.08261模型链接，https，huggingface.co，MeissonFlow，Meissonic在线Demo链接，https，huggingface.co，spaces，MeissonFlow，meissonic亮点直击，惊艳的效果...

2024-11-14 892

玩具模型

罗切斯特大学&amp 图像编辑多任务一网打尽！PromptFix 微软大规模视觉指令数据集新型扩散模型&amp

文章链接，https，arxiv.org，pdf，2405.16785项目链接，https，www.yongshengyu.com，PromptFix，Page总结速览解决的问题，现有扩散模型在处理自定义用户指令时缺乏多样化数据，尤其是在低级任务中表现不足，此外，扩散过程的随机性导致难以保留生成图像...

2024-11-14 452

科技

自回归生成最新SOTA！首次超越扩散模型和非自回归Transformer模型！字节开源RAR

文章链接，https，arxiv.org，pdf，2411.00776项目链接，https，yucornetto.github.io，projects，rar.html代码&amp，模型链接，https，github.com，bytedance，1d，tokenizer亮点直击总结速览解决的...

2024-11-14 483

行业热门

无需昂贵标注！大幅提升SDXL和SD3

文章链接，https，arxiv.org，pdf，2410.18013亮点直击总结速览解决的问题传统的直接偏好优化，DPO，方法依赖大量人工标注的数据集来对文本生成图像，T2I，模型进行对齐，但这种方法成本高昂，且数据容易过时，难以适应T2I模型快速提升的需求，提出的方案本研究提出一种完全合成的数据...

2024-11-14 334

包含"图像生成"标签的文章