LLM_第5页_坚曼百货商行

2024年大模型LLM还有哪些可研究的方向听听大佬怎么说

2024年大模型LLM还有哪些可研究的方向，前言纯属brainstorm，欢迎大家一起探讨，想到哪里说到哪里，有遗漏的点欢迎大家在评论区中指出，个人认为现在LLM能做的点还很多，这个行业距离饱和还有一段距离，这里通过，输入、模型，范式、输出、其他，几个方面来展开，个人觉得比较看好的方向加粗标出，输入...

2024-11-14 909

家电数码

评估RAG系统组件的终极指南

RAG系统包含两个核心组件，检索器和生成器，本文将介绍如何评估这两个组件，检索增强型生成，RAG，系统被设计用来提升大型语言模型，LLM，的响应质量，当用户提交查询时，RAG系统从向量数据库中提取相关信息，并将其作为场景传递给LLM，然后，LLM使用这个场景为用户生成响应，这一过程显著提高了LLM反...

2024-11-14 142

娱乐八卦

Chatbot 更智能的 GraphRAG 构建更可靠快速理解

作者，RendyDalimunthe编译，岳扬开发一个能够处理真实问题并给出精准回答的聊天机器人，实属不易，尽管大语言模型已取得重大进展，但如何将这些模型与知识库结合起来，提供可靠且上下文信息丰富的答案，仍是一个待解的难题，PhotobyGoogleDeepMind[1]onUnsplash[2]关...

2024-11-14 813

玩具模型

如何检测并尽量减少AI模型中的幻觉

我们几乎每天都会听到关于更广泛地成功实施AI工具的故事，随着ChatGPT、Midjourney及其他模型向公众开放，越来越多的人开始在日常生活中依赖AI，虽然机器学习算法很明显能够满足更具挑战性的需求，但它们还不够完美，AI频繁出现的幻觉问题阻碍它们成为人类最可靠的替代者，虽然对于普通用户来说，A...

2024-11-14 721

家电数码

如何使用HippoRAG增强LLM的记忆

译者，李睿审校，重楼大型语言模型，LLM，已经证明是一种非常宝贵的思考工具，经过大量文本、代码和其他媒体数据集的训练，它们能够创作出接近人类水平的文章、翻译语言、生成图像，还能以信息丰富的方式回答人们提出的问题，甚至可以编写不同类型的创意内容，但是，尽管它们功能强大，即使是最先进的LLM也有一个基本...

2024-11-14 105

头条

HippoRAG如何从大脑获取线索以改进LLM检索

译者，李睿审校，重楼知识存储和检索正在成为大型语言模型，LLM，应用的重要组成部分，虽然检索增强生成，RAG，在该领域取得了巨大进步，但一些局限性仍然没有克服，俄亥俄州立大学和斯坦福大学的研究团队推出了HippoRAG，这是一种创新性的检索框架，其设计理念源于人类长期记忆系统中的海马索引理论，Hip...

2024-11-14 326

娱乐八卦

LLM 长序列训练的 Sample Packing 问题及优化 Attention

一、背景之前看过部分Megatron，LM的源码，也详细分析过对应的&gt，SamplePacking中有很多可以讨论的技术点，比如Attention的实现和优化，Sample的组合及负载均衡问题，有点类似调度问题，以及不同方案对效果的影响等，我们这里只是先简单介绍一下相关问题和实验，后续会...

2024-11-14 949

饰品装饰

2024 ICML

本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学，研究方向包括深度学习理论，大语言模型理论，统计机器学习等等，目前已在ICLR，ICML，Neurips等AI顶会发表多篇论文，上下文学习，in，contextlearning，简写为ICL，已经在很多L...

2024-11-14 927

头条

vLLM AI架构系列 MLC LMDeploy

训练大型语言模型以及微调的教程比比皆是，但关于在生产环境中部署它们并监控其活动的资料相对稀缺，上章节提到了未来云原生的AI是趋势，然而涉及到云原生会比较偏技术，而在此之前为了解决大模型部署量产的问题，社区也一直在探索，目前已有不少工具可用于这个领域，另一方面，选择正确的推理后端为大型语言模型，LLM...

2024-11-14 222

资讯

LLM基础模型系列深入注意力机制

大模型技术论文不断，每个月总会新增上千篇，本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产，若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读，而最新科技，Mamba，xLSTM，KAN，则提供了大模型领域最新技术跟踪，1.自注意...

2024-11-14 440

行业热门

与机器对话揭示提示工程的十个秘密

提示工程是说服机器做人类想做之事的最新艺术，本文是关于编写LLM提示必知的10件事，提示的力量十分神奇，我们只需抛出几个近似人类语言的单词，就能得到一个格式和结构都良好的答案，没有什么话题是晦涩难懂的，没有什么事实是触不可及的，至少只要它是训练语料库的一部分，并得到模型的影子控制器，ShadowyC...

2024-11-14 324

母婴用品

秘方竟在拖LLM后腿 ChatGPT Karpathy LeCun联手开怼RLHF！

昨天，AndrejKarpathy又发了长推，不过用了一句很有争议的话开头——，RLHF只是勉强的RL，这条推特可谓，一石激起千层浪，，瞬间点燃了LLM社区的讨论热情，毕竟RLHF作为刚提出没几年的方法，又新颖又有争议，一边遭受质疑，一边又在工业界和学界迅速流行，5G冲浪的LeCun也赶来声援Kar...

2024-11-14 786

包包服装

Best Rejection Speculative 高效

一、背景本文中我们简单介绍一个新的Best，of，N速度优化的论文，其提出了SpeculativeRejection，投机拒绝，，虽然也是用于LLM推理生成加速，但是和SpeculativeDecoding，投机采样，场景、方案都很不一样，对于基于LLM进行高质量、大规模数据生成的场景比较有帮助，对...

2024-11-14 692

数码资讯

利用LLM本身训练SoTA Microsoft embedding模型

大家好，我是HxShine今天分享一篇Microsoft公司的一篇文章，Title，ImprovingTextEmbeddingswithLargeLanguageModels，使用大型语言模型改善文本嵌入，这篇文章探索了直接利用LLM来做embedding模型，其只需要利用合成数据和少于1000次...

2024-11-14 677