无界AI算法总监邹国平下半场还能怎么卷 Midjourney领跑没有标准答案的文生图

出品 | 技术栈（微信号：blog51cto）

进入2024，AI应用落地的步伐悄然加速。

AI文生图产品——连接着千行百业的设计需求，极大地压缩了创意实现的周期——正成为快速掘金的AI领域之一。

AI生图自2022年底开始爆发，过去一年多的时间已经让这条赛道变得内卷起来，前有 Midjourney、DALL·E、Stable Diffusion稳稳占据头部市场，后有GPT4等多模态大模型随时可能抄后路的危险，再加上诸多类似服务的图像编辑及设计工具也在加快融合"文生图"能力，多方都在对这块最稳定的AIGC赛道虎视眈眈

在激烈的内卷中，文生图玩家想要“出头”，就必须打出自己的特色来。

作为国内最早一批的AIGC产品落地实践者，无界AI算法总监邹国平有着非常深刻的体会。邹国平给出了一个令人意想不到的答案。

破局的关键就在于“场景”： 你面向什么样的场景？你擅长什么场景？在这个场景里，你是否能够深耕到一个非常领先的水平 ？他向我们抛出了这一连串的问题。

在通用AI模型盛行的今天，为什么文生图领域依旧是个很“吃”场景的命题？

文生图看似相对较低的门槛，却建在审美、设计以及专业场景知识的高山之上。 AI文生图比文生文更模糊、更没有标准答案。

最近，直播栏目《AIGC实战派》有幸邀请到了邹国平老师，在两个小时的交流中，他向我们分享了自己在文生图领域的探索心得与洞察，详细探讨了在文生图下半场如何“卷”出技术壁垒。这次交谈，澄清和刷新了原来大众对于文生图领域的”误解“与认知，其中他提出了几个很有意思的观点：

以下是整理后的对话内容。

1.Midjourney先发优势太“难杀”，国内追平还需多维度发力

《AIGC实战派》: Midjourney现在是全球范围内公认的用户最多、效果最好的文生图产品之一。在您看来，国内的文生图产品距离Midjourney还有哪些差距？

差距肯定存在。Midjourney无论是用户体量，还是整体营收完全是遥遥领先的。

相比国内的文生图产品Midjourney的先发优势非常大。回顾Midjourney的发展历程，22年的时候，他们就已经进行了两年多的研发积累。刚开始的第一版产品效果也不理想，但他们通过邀请制去招募用户参与到迭代中，持续改进产品。

22年下半年，Stable Diffusion的技术横空出世，给Midjourney的产品带来了一个爆发点。直到迭代至V4版本，已经呈现出行业标杆级的效果。

Midjourney自身有强大的专注度，完全focus在模型和算法探索领域。 至于工程和产品的部分，则更多在Disco diffusion平台上去实现，一来节省了不少的开发成本，其次这个平台带有的社群属性，让Midjourney用户持续裂变，通过口口相传沉淀起庞大的用户基础。

《AIGC实战派》：在Midjourney迭代到V4之前，国内大概在做什么？

更古老一点的，还没有走到文生图这一步。早期所谓的图像生成，更多的是特效及其他特定场景的生成，不是具体物品的成像。

《AIGC实战派》:Midjourney V4之后领先在哪？

V4版本的生成效果非常出色。特别是在特定领域，已经达到了实际可用的状态。Midjourney在数据处理方面有个非常独特之处，无论是数据质量还是数据标注都非常精细。通过广泛的用户接触和使用，已经形成了一套关于如何描述prompt的范式，这些关键词在构图、风格和艺术家风格的表达中起到了关键作用。

《AIGC实战派》: 我们现在做国内外文生图领域的比较，像您刚才说的模型、提示词，可能基本算是一个追齐的状态？您觉得我们还差在哪里？

在模型层面，一些国内的模型在特定测试集上已经能够与Midjourney的V5.2版本相媲美，但在广泛的用户场景测试中，我们的数据量还远远不够，所以很难精准的去回答“追平”的问题。因为我们所能进行的测试有限，要进行用户测试，让用户用手投票，这样的用户反馈可能仅有几千例。而Midjourney拥有2000万用户。

所以在小范围上去测，那确实可以说国内产品跟他的效果差不多。但如果要推广到所有的场景，确实是会有差距的。

但像Midjourney这样，能做到领先的，目前还是不太能看到。再往下走，每个环节还有很多工作需要补充。

2. Sora不只给方向，还给正在探索DIT的人吃了“定心丸”

《AIGC实战派》: 今年2月份，sora出现之后，有没有冲击到现在的AI生图领域？

会有影响的。首先像你刚才所说的，视频的确是流量的高地。国内在做Open-Sora项目时，也是按照既能生成视频也能生成图片的思路去做的。两者在技术上有相通之处。

Sora给了这个领域很大的信心。在此之前，基于DIT的尝试已经有一些，只是效果都没能达到实际可用的水平。Sora证明了端到端的视频生成这条路是能走通的。

《AIGC实战派》: 从Sora在技术报告中公开的那部分来看，能给图像生成领域带来哪些启发或者值得借鉴的地方？

说到方向的话，大家更多是采用DIT技术构建的模型，比如PixArt文生图模型，展示了在少量参数的模型(0.6B)上也能取得良好效果的可能性。

此外，目前的文生图还不足以实现精准控制。因此，引入额外的控制机制，就像PixArt在第二版本中所增加的功能，是完善模型的关键。这些控制可以平滑地集成到现有功能中，提供强大的设计和创造能力。

例如，在汽车设计中，可以将线稿图的规范与文本描述结合，实现更精确的图像生成控制。

《AIGC实战派》: 抛开Sora，文生图未来可能有哪些比较热的演进方向？

我从文生图领域目前面临的一些主要问题出发来谈谈。

首先，提示词的精准度和生成效果的对齐是一个需要解决的问题。尽管我们可以将提示词写得非常精细，但图像的细节呈现并不总是像文本描述的那样，典型的如手部细节的处理问题。

其次，生成图像的时间压缩也是一个挑战。目前，生成一张图像可能需要数秒的时间，如果加入更多控制，时间可能会更长。因此，工程上需要探索模型蒸馏和加速手段来提升效率。

最后，个性化生成是另一个重要的应用方向，这往往涉及到相关的参考图像。具体到图片生成，目前相似度的稳定性还有待提高，比如处理logo的自由变换时保持其细节不变等等。

《AIGC实战派》: 您觉得专有的AI生成工具，会不会被类似Sora这种很强大的通用工具吃掉？

通用的文生图能力最终可能会被大型模型所覆盖。像GPT-4 Vision这样的模型已经具备了视觉感知能力，能够识别和描述图片内容，但目前还未实现生成或创造能力。语言模型在认知方面已经达到了高水平，但视觉、理解以及创造的过程则更为复杂。

Sora对OpenAI来说，意义是找到了一个通往世界模型的道路。OpenAI的使命和站位让他不会开发非常垂的产品，他们做的是提供一个平台，类似于乐高积木，让用户根据需求自己去搭建想要的应用。

3.文生图要“卷”出技术壁垒，先要从场景出发

《AIGC实战派》: 都说文生图的创业门槛低，在现在这么卷的情况之下，大家都很好奇技术圈到底是在卷哪块东西？在什么维度还可以打出差异化，还能拼出技术实力、拼出竞争力来？

我们可以看看，现在领先的文生图产品都是怎么做的。

不少文生图产品已经取得了不错的成绩，其实他们的产品理念却是各不相同：比如Leonardo.AI，它最初的着陆点在生成游戏角色的物料，后来才慢慢发展成一个全类别的文生图平台。还有yodayo，则一开始做二次元领域的生成起家，后来扩展到用户与虚拟角色的聊天服务上。而由前谷歌imagen团队大佬创立的Ideogram，则以文字生成为长板。

这些产品都是成功实现差异化的案例。现在Leonardo.AI每月的PV将近1000万。

回到问题本身，文生图要“卷”出自己的技术壁垒，首先就要从场景出发。你面向什么样的场景？你擅长什么场景？在这个场景里，你是否能够深耕到一个非常领先的水平？——这其实也跟模型有关，需要你的模型有一定的独到之处。

《AIGC实战派》: 怎么把模型做出独到之处？

首先是有个目标，了解模型面向的用户和场景。比如，模型focus在游戏素材生成上，那么就针对这个领域深入优化，去做材质、光照等属性的编辑。

《AIGC实战派》: 现在是哪种模式更多一点？是让设计和AI的专才进行合作，还是直接寻找两个领域的通才？无界AI团队是怎么考虑的？

我们去做模型训练，会有一个模型主理人，他需要在这个领域有一定的知识储备，去把输入和输出对齐。

AI如何让强者更强，就是能利用强者的知识储备，通过大模型描述性的方式，最终呈现出来。

《AIGC实战派》: 人才也是技术壁垒的一部分？

AI时代，拼的就是三个要素，人才、数据、算力。

刚才说了文生图要“卷”场景。其次，数据处理能力也是关键，行业数据和算力的储备对于图像生成领域的积累至关重要。

虽然文生图模型的参数量相对较小，可能亿级别就足够，但这并不意味着算力不是门槛，对算力的需要取决于模型的训练目标。训练的数据量小，那一张消费级显卡就能搞定，但像Midjourney这种规模还是需要强大算力支撑的。他们早期在亚马逊拿到了1000万美元的算力。

4.“几家GPU厂商提供了非常动态的扩容能力，极短时间对接上千块显卡”

《AIGC实战派》: AI产品用户达到百万级甚至千万级，这时候我们该怎么应对？无界AI在短时间内积累到百万用户的时候，都进行了怎样的备案？

邹国平: 用户的涌入会需要处理一些突发的事件。相比文字，图像生成对GPU资源的消耗更高，我们需要及时增加GPU资源，避免用户动辄为一张图像的生成等待10s以上。目前主要用的GPU资源都是云端的卡。

其次，文生图需要面临更为复杂的情况，我们有多个模型，而每个模型的用户量又不同。这就要求我们建立一个高效的调度系统来处理用户提交的任务。系统应该能够根据模型的使用情况动态调整资源分配，对于不同的模型，我们可能需要定制化的调度方案。

此外，我们还需要优化单个GPU卡的工作效率，通过加速方案和模型优化来提高单次图像生成任务的效率。这包括提高模型的加载速度、生成和切换速度，以及优化整个系统的扩展性。

举个例子，我们与头部消费品品牌合作进行营销活动时，就面临过千万级别的流量挑战。为了应对这种情况，我们联合了几家GPU厂商，准备了上万规模的GPU资源进行调度。我们自有的GPU云平台可以快速地基于第三方GPU资源进行动态扩容，在很短的时间内就响应上千块显卡的对接。

《AIGC实战派》: 说到用户体验，文生图用户对于排队这个现象的忍受度怎么样？

如果产品提供的文生图效果很好的话，那排队也是能被用户接受的。有些时候，你不是VIP用户可能会故意让你生成速度慢一点，就是逼你交钱的（笑）。

不过，也分应用场景，比如进行定制化的化身或是视频风格转换，这些任务本身就需要较长的处理时间。不过用户自己也会有预期，所以就愿意为此等待。

5.不同于文生文，AI文生图不存在标准答案

《AIGC实战派》: 做一款AI原生应用的产品，最抓狂的地方是在哪里？

AIGC发展到现在，已经有一段的时间了。随着时间的推移，AI生成技术已经从效果一般发展到可用状态，我们一直在进行用户教育，去同步认知。首先是怎么去生成图像，其次就是让用户理解在当前技术的限制下，生成的图像仍然存在瑕疵。

最抓狂的是，在某些场景下，用户可能非常挑剔，尤其是B端用户。众所周知，AI生成确实有一定的随机性和不可控制性，bad case总是存在的，而且时不时就会冒出来，这给产品的维护带来挑战。

《AIGC实战派》: B端用户要做一个定制方案，需要多久才能交付完成？

交付时长按月计，但不确定性很大。

总体来讲，文生图还是一个比较新兴的东西。客户的需求在他脑海中，有些是很难用语言描述出来的，因此前期是一个相互探索的过程，需要不断地提供初步方案、产出结果，等拿到客户的反馈才知道怎么跟进。

这也说明了，尽管文生图看似门槛低，但在细节把握上却非常具有挑战性。这也是为什么我们（无界AI）的专业版工作流功能旨在赋予用户更多的自主发挥空间，让有探索和动手能力的用户设计个性化的文生图流程。

《AIGC实战派》: 正在研究的哪些方向，可以透露一下吗？

邹国平: 我们目前的研究重点是围绕几个创新方向进行的。首先最大的期待还是Sora模型的复现。Sora涉及到从视频噪声片段出发，生成连贯且稳定的视频内容，这与以往的单帧生成完全不同。Sora的技术路线将作为我们的一个重要参考，无论是在图像生成还是视频生成的应用上。

在3D领域，我们也在进行一些尝试，包括通过单张图像重建3D模型。比如通过线稿生成具有真实质感纹理的3D模型。

另一个有趣的研究方向是通过文本直接生成具有透明背景的PNG图片，这意味着用户无需再进行抠图。

想了解更多AIGC的内容，请访问：

AI.x社区

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/shipinzhuangshi/31584.html

无界AI算法总监邹国平 下半场还能怎么卷 Midjourney领跑 没有标准答案的文生图