“多模态大模型核心要点只有两个,交叉性和互补性;多模态大模型的目的就是在保证互补性的前提下,去除交叉性”
而什么是多模态模型呢?网上一般谈到多模态模型,就是具有多种数据模式的模型,比如同时能够处理文字,图片,视频等多种模态数据的模型。
其实从本质上来说,多模态模型和生成式模型都是一种表征模型,毕竟多模态也是生成式模型的一种,只不过多模态的数据格式更复杂。
多模态模型
再来回顾一下什么是生成式模型,生成式模型是基于一种机器学习/神经网络模型,构建的一种可以对训练数据进行表征学习,通过模型参数记录表征结果,这个就是大模型的训练/学习的过程;而根据表征结果,模型可以根据用户输入生成新的样本数据;这就是模型的两个核心要点,理解与生成。
多模态是建立在生成式模型基础之上的,一种更加复杂的模型范式,因为其支持多种模态的数据,所以叫做多模态。
那多模态的核心技术难点是什么呢?
从技术的角度来说,多模态的技术原理与生成式模型的技术没有本质的区别,都是数据表征的一种形式;但区别是,多模态要同时表征多种格式的数据,这个难度就不是简单的1加1等于2的问题,其难度系数呈指数式上升。
而其核心技术点,也是其核心难点就是多模态融合;所谓的多模态融合就是指两个以上模态数据形成的多种不同种类的组合。
比如文本的表现形式主要是字符,而图像的表现形式是像素;而这是完全不同的两种表现形式,更不用说更加复杂的视频等其它模态的数据。
由于不同模态数据之间的表现形式不一样,其表达形式也不一样;所以不同模态数据之间就存在很多交叉点;这就像我们看待一些古人的作品,能在字中看出画,在画中看出字。
而这些数据交叉点就是数据的冗余性,不同数据之间存在着大量的冗余数据;但从另一个角度来说,文字与图片又是互补的,比如说有些人会在画上题诗,也有人以诗作画,而这又是诗与画的互补。
而互补之后的诗和画,要比单纯的诗和画表现形式更好,更生动,更形象;也就是说多模态的表征,要比单模态表征更加的优秀;而且不同模态数据之间可能还存在更加丰富的信息交互形式,而如果能够合理的处理这些信息交互,那么就可以更加丰富的特征信息。
因此,多模态概括来说就是,信息的交叉(冗余)和互补,这也是多模态的一个显著特点。
但是,多模态虽然比单模态表征形式更丰富,更优秀;但怎么让不同模态的数据融合在一起,但又不会丧失其本身的特性;也就是说,怎么保证不同模态数据的互补性的前提下, 又能去除不同数据之间的冗余信息。
而这就是多模态的几个核心技术点:
总之,多模态大模型是一种更加强大的生成式模型,当然其技术实现难度也更大。但多模态也可能是人类实现通用人工智能的一种方式。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/zixun/32648.html