科创板日报 6 月 15 日讯(记者 李明明)尽管大模型风靡一时,但距离人们理想中的通用人工智能,其本身还有许多科学问题亟待解决。
2024 年 6 月 14 日,AI 行业盛会“2024 北京智源大会”在中关村展示中心开幕。在大会上,零一万物 CEO 李开复、清华大学智能产业研究院院长张亚勤就大模型下一步的发展等关键问题展开思考和对话。
大模型是迄今为止人工智能发展最成功的一个技术方向。那么,是什么原因使得大模型如此成功?还有哪些欠缺的地方需要进一步发展?李开复认为,AI 2.0 是有史以来最伟大的科技革命和平台革命,大模型的规模定律(Scaling Law)的重要性在这个时代得以凸显,人类能够用更多计算和数据不断增加大模型的智慧,且还远没有触达天花板。
大模型正面临着一些挑战。比如,如果“仅仅用更多算力就能把它往前推动”是主要方向的话,就会导致只有那些 GPU 资源丰富的公司和国家能够在这方面胜出。很多国内大模型在部分案例里接近、打平或者偶尔超过了美国的大模型。当下需要关注的是算法和工程创新一体化的推进,以及怎么以这种能力避免进入“盲目堆算力推动模型性能提升”的状态。
大模型还存在记忆的问题、窗口长度的问题、幻觉问题等等,但可以看到的是,当全球如此多聪明的大脑涌入这个领域后,大部分问题不能说被完美地解决,但是都在逐步被攻克的过程中,所以对大模型的未来相当乐观。
张亚勤则从大模型“三个做对了”的和“三个目前需要改进”的来展开。在大模型“三个做对了”方面,他认为,规模定律(Scaling Law)的实现,主要得益于对海量数据的利用以及算力的显著提升。再加上现在的 Diffusion 和 Transformer 架构能够高效地利用算力和数据,使得“飞轮效应”得以正循环。至少在未来 5 年里,它仍将是产业发展的主要方向。
其次在大模型中,“Token”是一个基本元素。无论是文本、语音、图像、视频,还是自动驾驶中的激光雷达信号,甚至是生物领域的蛋白质和细胞,最终都可以抽象为一个 Token。Token 之间的训练、学习和生成是核心环节,这与人们大脑中的神经元工作原理相似,无论执行何种任务,其基础机制都是相同的。
第三,大模型现在的通用性不仅体现在文本处理上,还扩展到了多模态领域,甚至可以生成如蛋白质等复杂结构。它在物理世界(如具身智能)和生物世界(如生物智能)中也有着广泛的应用前景。
在现阶段大模型存在的主要问题上,他认为,首先是效率较低。特别是大模型的计算效率低下问题,与人类大脑的高效性形成了鲜明的对比。
人脑拥有 860 亿个神经元,每个神经元有多达数千个突触连接。但它仅需 20 瓦的能量,重量不到 3 斤。相比之下,GPT-4 等万亿参数模型需要庞大的算力和能源。其能耗比人脑高出 1000 倍。
人脑能根据不同情境灵活调动神经元。而大模型处理每个问题时,几乎会激活所有参数。
研究人脑的计算方法,以降低算能消耗、提高效率,是一个值得关注的方向。
大模型尚未真正理解物理世界,其推理能力、透明性、幻觉等问题仍在深入探索中。生成式表述与对真实世界的刻画之间也存在矛盾。
我们要探索如何将生成式大模型与“第一性原理”或真实模型、知识图谱相结合。
有专家预测,未来五年内会出现一种全新的架构,取代现有的 Transformer 和 Diffusion 模型。
大模型无法意识到“我所不知”,这需要解决其边界效应。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/xingyeremen/6511.html