出品 | 技术栈(微信号:blog51cto)
进入2024,AI应用落地的步伐悄然加速。
AI文生图产品——连接着千行百业的设计需求,极大地压缩了创意实现的周期——正成为快速掘金的AI领域之一。
AI生图自2022年底开始爆发,过去一年多的时间已经让这条赛道变得内卷起来,前有 Midjourney、DALL·E、Stable Diffusion稳稳占据头部市场,后有GPT4等多模态大模型随时可能抄后路的危险,再加上诸多类似服务的图像编辑及设计工具也在加快融合"文生图"能力,多方都在对这块最稳定的AIGC赛道虎视眈眈
在激烈的内卷中,文生图玩家想要“出头”,就必须打出自己的特色来。
作为国内最早一批的AIGC产品落地实践者,无界AI算法总监邹国平有着非常深刻的体会。邹国平给出了一个令人意想不到的答案。
破局的关键就在于“场景”: 你面向什么样的场景?你擅长什么场景?在这个场景里,你是否能够深耕到一个非常领先的水平 ?他向我们抛出了这一连串的问题。
在通用AI模型盛行的今天,为什么文生图领域依旧是个很“吃”场景的命题?
文生图看似相对较低的门槛,却建在审美、设计以及专业场景知识的高山之上。 AI文生图比文生文更模糊、更没有标准答案。
最近,直播栏目《AIGC实战派》有幸邀请到了邹国平老师,在两个小时的交流中,他向我们分享了自己在文生图领域的探索心得与洞察,详细探讨了在文生图下半场如何“卷”出技术壁垒。这次交谈,澄清和刷新了原来大众对于文生图领域的”误解“与认知,其中他提出了几个很有意思的观点:
以下是整理后的对话内容。
1.Midjourney先发优势太“难杀”,国内追平还需多维度发力
《AIGC实战派》: Midjourney现在是全球范围内公认的用户最多、效果最好的文生图产品之一。在您看来,国内的文生图产品距离Midjourney还有哪些差距?
差距肯定存在。Midjourney无论是用户体量,还是整体营收完全是遥遥领先的。
相比国内的文生图产品Midjourney的先发优势非常大。回顾Midjourney的发展历程,22年的时候,他们就已经进行了两年多的研发积累。刚开始的第一版产品效果也不理想,但他们通过邀请制去招募用户参与到迭代中,持续改进产品。
22年下半年,Stable Diffusion的技术横空出世,给Midjourney的产品带来了一个爆发点。直到迭代至V4版本,已经呈现出行业标杆级的效果。
Midjourney自身有强大的专注度,完全focus在模型和算法探索领域。 至于工程和产品的部分,则更多在Disco diffusion平台上去实现,一来节省了不少的开发成本,其次这个平台带有的社群属性,让Midjourney用户持续裂变,通过口口相传沉淀起庞大的用户基础。
《AIGC实战派》:在Midjourney迭代到V4之前,国内大概在做什么?
更古老一点的,还没有走到文生图这一步。早期所谓的图像生成,更多的是特效及其他特定场景的生成,不是具体物品的成像。
《AIGC实战派》:Midjourney V4之后领先在哪?
V4版本的生成效果非常出色。特别是在特定领域,已经达到了实际可用的状态。Midjourney在数据处理方面有个非常独特之处,无论是数据质量还是数据标注都非常精细。通过广泛的用户接触和使用,已经形成了一套关于如何描述prompt的范式,这些关键词在构图、风格和艺术家风格的表达中起到了关键作用。
《AIGC实战派》: 我们现在做国内外文生图领域的比较,像您刚才说的模型、提示词,可能基本算是一个追齐的状态?您觉得我们还差在哪里?
在模型层面,一些国内的模型在特定测试集上已经能够与Midjourney的V5.2版本相媲美,但在广泛的用户场景测试中,我们的数据量还远远不够,所以很难精准的去回答“追平”的问题。因为我们所能进行的测试有限,要进行用户测试,让用户用手投票,这样的用户反馈可能仅有几千例。而Midjourney拥有2000万用户。
所以在小范围上去测,那确实可以说国内产品跟他的效果差不多。但如果要推广到所有的场景,确实是会有差距的。
但像Midjourney这样,能做到领先的,目前还是不太能看到。再往下走,每个环节还有很多工作需要补充。
2. Sora不只给方向,还给正在探索DIT的人吃了“定心丸”
《AIGC实战派》: 今年2月份,sora出现之后,有没有冲击到现在的AI生图领域?
会有影响的。首先像你刚才所说的,视频的确是流量的高地。国内在做Open-Sora项目时,也是按照既能生成视频也能生成图片的思路去做的。两者在技术上有相通之处。
Sora给了这个领域很大的信心。在此之前,基于DIT的尝试已经有一些,只是效果都没能达到实际可用的水平。Sora证明了端到端的视频生成这条路是能走通的。
《AIGC实战派》: 从Sora在技术报告中公开的那部分来看,能给图像生成领域带来哪些启发或者值得借鉴的地方?
说到方向的话,大家更多是采用DIT技术构建的模型,比如PixArt文生图模型,展示了在少量参数的模型(0.6B)上也能取得良好效果的可能性。
此外,目前的文生图还不足以实现精准控制。因此,引入额外的控制机制,就像PixArt在第二版本中所增加的功能,是完善模型的关键。这些控制可以平滑地集成到现有功能中,提供强大的设计和创造能力。
例如,在汽车设计中,可以将线稿图的规范与文本描述结合,实现更精确的图像生成控制。
《AIGC实战派》: 抛开Sora,文生图未来可能有哪些比较热的演进方向?
我从文生图领域目前面临的一些主要问题出发来谈谈。
首先,提示词的精准度和生成效果的对齐是一个需要解决的问题。尽管我们可以将提示词写得非常精细,但图像的细节呈现并不总是像文本描述的那样,典型的如手部细节的处理问题。
其次,生成图像的时间压缩也是一个挑战。目前,生成一张图像可能需要数秒的时间,如果加入更多控制,时间可能会更长。因此,工程上需要探索模型蒸馏和加速手段来提升效率。
最后,个性化生成是另一个重要的应用方向,这往往涉及到相关的参考图像。具体到图片生成,目前相似度的稳定性还有待提高,比如处理logo的自由变换时保持其细节不变等等。
《AIGC实战派》: 您觉得专有的AI生成工具,会不会被类似Sora这种很强大的通用工具吃掉?
通用的文生图能力最终可能会被大型模型所覆盖。像GPT-4 Vision这样的模型已经具备了视觉感知能力,能够识别和描述图片内容,但目前还未实现生成或创造能力。语言模型在认知方面已经达到了高水平,但视觉、理解以及创造的过程则更为复杂。
Sora对OpenAI来说,意义是找到了一个通往世界模型的道路。OpenAI的使命和站位让他不会开发非常垂的产品,他们做的是提供一个平台,类似于乐高积木,让用户根据需求自己去搭建想要的应用。
3.文生图要“卷”出技术壁垒,先要从场景出发
《AIGC实战派》: 都说文生图的创业门槛低,在现在这么卷的情况之下,大家都很好奇技术圈到底是在卷哪块东西?在什么维度还可以打出差异化,还能拼出技术实力、拼出竞争力来?
我们可以看看,现在领先的文生图产品都是怎么做的。
不少文生图产品已经取得了不错的成绩,其实他们的产品理念却是各不相同:比如Leonardo.AI,它最初的着陆点在生成游戏角色的物料,后来才慢慢发展成一个全类别的文生图平台。还有yodayo,则一开始做二次元领域的生成起家,后来扩展到用户与虚拟角色的聊天服务上。而由前谷歌imagen团队大佬创立的Ideogram,则以文字生成为长板。
这些产品都是成功实现差异化的案例。现在Leonardo.AI每月的PV将近1000万。
回到问题本身,文生图要“卷”出自己的技术壁垒,首先就要从场景出发。你面向什么样的场景?你擅长什么场景?在这个场景里,你是否能够深耕到一个非常领先的水平?——这其实也跟模型有关,需要你的模型有一定的独到之处。
《AIGC实战派》: 怎么把模型做出独到之处?
首先是有个目标,了解模型面向的用户和场景。比如,模型focus在游戏素材生成上,那么就针对这个领域深入优化,去做材质、光照等属性的编辑。
《AIGC实战派》: 现在是哪种模式更多一点?是让设计和AI的专才进行合作,还是直接寻找两个领域的通才?无界AI团队是怎么考虑的?
我们去做模型训练,会有一个模型主理人,他需要在这个领域有一定的知识储备,去把输入和输出对齐。
AI如何让强者更强,就是能利用强者的知识储备,通过大模型描述性的方式,最终呈现出来。
《AIGC实战派》: 人才也是技术壁垒的一部分?
AI时代,拼的就是三个要素,人才、数据、算力。
刚才说了文生图要“卷”场景。其次,数据处理能力也是关键,行业数据和算力的储备对于图像生成领域的积累至关重要。
虽然文生图模型的参数量相对较小,可能亿级别就足够,但这并不意味着算力不是门槛,对算力的需要取决于模型的训练目标。训练的数据量小,那一张消费级显卡就能搞定,但像Midjourney这种规模还是需要强大算力支撑的。他们早期在亚马逊拿到了1000万美元的算力。
4.“几家GPU厂商提供了非常动态的扩容能力,极短时间对接上千块显卡”
《AIGC实战派》: AI产品用户达到百万级甚至千万级,这时候我们该怎么应对?无界AI在短时间内积累到百万用户的时候,都进行了怎样的备案?
邹国平: 用户的涌入会需要处理一些突发的事件。相比文字,图像生成对GPU资源的消耗更高,我们需要及时增加GPU资源,避免用户动辄为一张图像的生成等待10s以上。目前主要用的GPU资源都是云端的卡。
其次,文生图需要面临更为复杂的情况,我们有多个模型,而每个模型的用户量又不同。这就要求我们建立一个高效的调度系统来处理用户提交的任务。系统应该能够根据模型的使用情况动态调整资源分配,对于不同的模型,我们可能需要定制化的调度方案。
此外,我们还需要优化单个GPU卡的工作效率,通过加速方案和模型优化来提高单次图像生成任务的效率。这包括提高模型的加载速度、生成和切换速度,以及优化整个系统的扩展性。
举个例子,我们与头部消费品品牌合作进行营销活动时,就面临过千万级别的流量挑战。为了应对这种情况,我们联合了几家GPU厂商,准备了上万规模的GPU资源进行调度。我们自有的GPU云平台可以快速地基于第三方GPU资源进行动态扩容,在很短的时间内就响应上千块显卡的对接。
《AIGC实战派》: 说到用户体验,文生图用户对于排队这个现象的忍受度怎么样?
如果产品提供的文生图效果很好的话,那排队也是能被用户接受的。有些时候,你不是VIP用户可能会故意让你生成速度慢一点,就是逼你交钱的(笑)。
不过,也分应用场景,比如进行定制化的化身或是视频风格转换,这些任务本身就需要较长的处理时间。不过用户自己也会有预期,所以就愿意为此等待。
5.不同于文生文,AI文生图不存在标准答案
《AIGC实战派》: 做一款AI原生应用的产品,最抓狂的地方是在哪里?
AIGC发展到现在,已经有一段的时间了。随着时间的推移,AI生成技术已经从效果一般发展到可用状态,我们一直在进行用户教育,去同步认知。首先是怎么去生成图像,其次就是让用户理解在当前技术的限制下,生成的图像仍然存在瑕疵。
最抓狂的是,在某些场景下,用户可能非常挑剔,尤其是B端用户。众所周知,AI生成确实有一定的随机性和不可控制性,bad case总是存在的,而且时不时就会冒出来,这给产品的维护带来挑战。
《AIGC实战派》: B端用户要做一个定制方案,需要多久才能交付完成?
交付时长按月计,但不确定性很大。
总体来讲,文生图还是一个比较新兴的东西。客户的需求在他脑海中,有些是很难用语言描述出来的,因此前期是一个相互探索的过程,需要不断地提供初步方案、产出结果,等拿到客户的反馈才知道怎么跟进。
这也说明了,尽管文生图看似门槛低,但在细节把握上却非常具有挑战性。这也是为什么我们(无界AI)的专业版工作流功能旨在赋予用户更多的自主发挥空间,让有探索和动手能力的用户设计个性化的文生图流程。
《AIGC实战派》: 正在研究的哪些方向,可以透露一下吗?
邹国平: 我们目前的研究重点是围绕几个创新方向进行的。首先最大的期待还是Sora模型的复现。Sora涉及到从视频噪声片段出发,生成连贯且稳定的视频内容,这与以往的单帧生成完全不同。Sora的技术路线将作为我们的一个重要参考,无论是在图像生成还是视频生成的应用上。
在3D领域,我们也在进行一些尝试,包括通过单张图像重建3D模型。比如通过线稿生成具有真实质感纹理的3D模型。
另一个有趣的研究方向是通过文本直接生成具有透明背景的PNG图片,这意味着用户无需再进行抠图。
想了解更多AIGC的内容,请访问:
AI.x社区
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/shipinzhuangshi/31584.html