2024年大模型LLM还有哪些可研究的方向听听大佬怎么说

2024年大模型LLM还有哪些可研究的方向？

前言

纯属brainstorm，欢迎大家一起探讨。想到哪里说到哪里，有遗漏的点欢迎大家在评论区中指出。

个人认为现在LLM能做的点还很多，这个行业距离饱和还有一段距离。这里通过“ 输入、模型/范式、输出、其他 ”几个方面来展开，个人觉得比较看好的方向加粗标出：

输入

这一节就跟pre-training、instruction tuning、RLHF的经典三阶段比较相关了，其实也可以叫数据，而数据的重要性自然不用多说。

数据优化

目前的工作基本都是 “大规模语料 + 人工高质量数据集” 的方式进行暴力求解，在输入上通过设计进行优化还是有一定可行之处的。

其实CV这边还是有很多类似做法可以参考的，尤其是做diffusion models的，同样也是做生成，有很多方面有一定共通之处。比方说最经典的Stable Diffusion，从最早的v1.4到v2.0，再到v2.1，也是通过在256×256、512×512、768×768分辨率上递进式的fine-tune完成的。

迁移到LLM这一块，对于pre-training的时候语料的处理，可以做ranking，包括fine-tune的时候做continual learning、active learning等等，理论上可做的事以及相应的效果应该也是相近的。

关于data augmentation方面，之前看过一篇在LLM训练过程中往intermediate feature加高斯噪声的工作，证明了能够带来性能提升。结论其实是比较有趣的，往intermediate feature加入噪声的做法可以理解为一种latent space上的data augmentation 但如此简单的做法恰好证明了其有效性，说明在数据增强这一块可做的设计还有很多 。感兴趣的朋友可以移步原文：《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》，。

相关回答可以参考：大模型微调技巧-在Embedding上加入噪音提高指令微调效果，

RAG这一块属于是去年比较火的一个点了，尤其是针对大模型“幻觉”的这个痛点，个人认为还可以做，但属于比较卷的方向，今年的研究应该会有数量上的骤增。可以看下RAG的近几年的文章情况：

可以看到，2023年RAG的工作已经出现了明显的大幅增加，而大多数还是集中在做推理，也就是说， 预训练和微调还有研究空间 。可以参考下图汇总目前RAG的研究范式展开：

另一方面可以考虑的是 模态信息上的拓展 。目前看来做Vision-Language Models（VLM）已经是一个必然趋势了，而RAG方法主要用于检索文本证据， 检索其他模态信息来增强生成还是有研究空间的 。

模型/范式

“模型/范式”这一方面是个人比较看好的方向。 目前AI巨头的动作也集中于这一块，预计2024年这一块可研究的方向比较多，当然估计也会快速地卷起来。

LLM + Robotics

前段时间OpenAI发布了Figure 01，虽然说热度可能没有Sora那么高，不过说明LLM在做planning这件事上已经有了初步的成果，想必这件事情的公布势必会带动很多的相关研究。具体的分析可以参考我的往期回答：如何看待与Open AI合作的最新机器人成果Figure 01?

Figure 01的意义其实不仅限于robotics，其实也证明了agent的想法确实可行， agent势必会成为今年的一大热点 。其实早在去年，各大厂商都纷纷开始入场agent了.

学术界也不例外，这里举一些比较经典的例子：比方说早期的HuggingGPT，出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》，。

ToolFormer，出自《Toolformer: Language Models Can Teach Themselves to Use Tools》，。

尤其是去年Stanford的西部小镇，出自《Generative Agents: Interactive Simulacra of Human Behavior》，给人的印象非常深刻：

统一模态生成信息

这一点其实是长久以来CV和NLP研究者关注的问题，也就是 多模态大一统的问题 。而在生成这个角度上其实已经有一些统一范式了，无论是Diffusion-Based还是LLM-Based。而LLM-Based的解决方案中，真正的难点在于 如何通过token这个概念表征其他模态的数据 。

目前统一文本、图像模态的工作已经有很多，解决方案也很自然，采用VQ-VAE系列的压缩模型将图像表征为image token，LLM只需要学会怎么预测image token即可。而下一步的生成面向的 必然是视频和3D 。如果能解决好video和3D的token representation问题，那么统一模态生成就能进一步拓展，这其中还是有较大难度的，非常值得深挖。另外结合我个人非常有感触的一张图，也同样能说明这个问题：

Vision-Language Models

对于VLM来说，图像相关的工作已经日趋饱和了，类似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的经典工作已经有不少了，大多采用“Visual Encoder + LLM”的桥接形式，例如最经典的MiniGPT-4：

而前面说到， 视频和3D 必定是下一波热点的研究方向。将 LLM与更多的模态信息“桥接” ，肯定是可以做的，不过这样的idea也很容易想到，个人认为VLM应该会非常卷。加上还要面对OpenAI这个大魔王，应该会有一定的研究压力。

另外一个比较值得研究的问题是： 跨模态信息对齐之后能做什么？ 其实去年一些工作已经证明，LLM除了常见的Visual QA、captioning这些任务，也能一定程度完成vision-oriented的任务，例如有些研究会用VLM在object detection上做验证，以此体现VLM的visual understanding能力，这其实说明 LLM的应用并不局限于text-oriented的下游任务 。

架构设计

架构设计方面，其实近段时间的一些工作动向也证明了目前LLM在架构设计上还有较大创新空间。比方说去年比较惊艳的Mistral-7b，包括前不久马斯克宣布开源的Grok-1等等，基本都采用MoE的架构在做，个人觉得这其实是一个比较好的开始。LLM的模型架构自2022年以来就雷打不动，绝大部分研究都在沿用前人的默认设定， 而对于这些默认设定上存在的问题，绝对是有研究可做的。

其实反观diffusion models的发展也类似，从2020年DDPM推出以来，4年时间绝大部分的研究都在沿用U-Net的默认架构，今年的Sora，包括Stable Diffusion 3中首次不约而同用到了Diffusion Transformer，证明了模型架构上确实是有值得创新之处。 类比到LLM上也同理 。

关于Diffusion Transformer相关的讲解，可以参考我的往期文章：Diffusion Transformer Family：关于Sora和Stable Diffusion 3你需要知道的一切，。

另一方面， Scaling Law肯定是一个值得研究的方向。 类似的还有关于 LLM的可解释性 ，目前LLM大部分研究都是靠数据和算力的堆积来暴力求解，如果能够摸索出一定的理论依据，对于工业界或者是学术界来说都会是非常难得的研究。 类似的方向还有LLM幻觉问题上的相关研究。

输出

生成内容安全问题

生成内容的安全问题其实也在逐渐受到近期研究的关注了，比方说LLaMa 2中就有特别关注这个问题。其实生成内容的安全问题涉及很多其他的应用，比方说垂类应用。 无论是金融、法律、医疗，这些特定领域在内容安全性上都会比general domain的要求要更高。 能给出安全性问题的一定解决方案，对于整个社区来说肯定是有贡献的。

具体解决安全问题其实跟前面提到的几个点有一定交叉，例如从 数据层面上做优化、微调阶段做优化、RAG， 等等，这里就不再展开了。

评测问题

个人认为evaluation其实是LLM研究中 最值得研究的一个点 ，但是同时也是很难的一点。无论是现在的 打榜、human evaluation、GPT打分 ，其实都很难全面去评价LLM，导致LLM在实际应用过程中并没有指标体现出来的那样好用。

而如果能有一个自动化的评测指标，最好能够结合LLM的理论基础进行设计，我觉得是目前社区比较需要的一个方向。 当然，前面也说到，LLM的可解释性也是一个待解决的问题，相关指标的设计也同样具有挑战。

其他

NLP经典任务

这可能是一个比较小众的点。其实也是个人一直在思考的一个问题， LLM时代下究竟怎么样做NLP的经典任务？ 比方说parsing、句法相关的任务，LLM的设计跟这些任务之间肯定是存在一些gap的，而怎样将language models在大规模数据上获得的能力迁移在这些经典任务上，其实相关的工作仍比较少。

垂类大模型

无论是工业界还是学术界，垂类大模型一直以来都是研究热点之一。垂类大模型中与前面说到的数据优化、内容安全、评测问题都高度耦合。对于不同的垂直领域， 垂类大模型面临的最大问题还是domain gap。 具体来说就包括很多方面了，例如特定领域数据上的问题，通常具有 领域特性 ， 但数据量有限；内容安全上， 比方说金融、法律、医疗大模型， 对安全性的需求都比通用大模型要高； 评测问题，就拿医疗大模型举例，还需要 跟专业的医疗知识结合才能有效评测 ，等等；技术上还涉及LLM fine-tuning、domain adaptation，等等，甚至一些领域对于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比较丰富的。

交叉学科

这点其实也是比较有“学术味道”的一类研究， 文章工作本身更倾向于分析类而并非实验。 通常将LLM与其他学科交叉进行分析，例如 语言学、政治学、社会学、心理学， 等等。这类分析文章实验代价通常相对较小，更侧重统计、可视化、消融实验等分析性质的实验，但同时也需要掌握相关学科的专业知识，有一定的门槛。

比较有代表性的工作在ACL 2023的best paper就有，例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》，研究LLM是否能理解幽默：

ACL 2023 best paper的另一篇则是对LLM的政治偏见进行研究，出自《From Pretraining>

值得一提的是，ACL 2023 best paper剩文章是对Stable Diffusion Cross-Attenion机制的研究。包括Stanford西部小镇《Generative Agents: Interactive Simulacra of Human Behavior》，中也有关于AI agents交互与 社会传播学 的研究，例如下图中就是关于特定任务的一个case study：

原文链接:

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/xingyeremen/32891.html

2024年大模型LLM还有哪些可研究的方向 听听大佬怎么说

前言

输入