包含"模型"标签的文章
-
RAG! RAG全景图 再到终章Agentic 从RAG启蒙到高级RAG之36技
检索增强生成,RAG,Retrieval,AugmentedGeneration,技术可追溯到2020年Facebook发表的一篇论文,Retrieval,AugmentedGenerationforKnowledge,IntensiveNLPTasks,它结合了信息检索和生成模型技术,通过引入外部...
-
一文读懂大模型协作策略 Ensemble Merge Cooperate!
大型语言模型,LLMs,时代协作策略是一个新兴研究领域,协作策略可以分为三种主要方法,合并,Merging,、集成,Ensemble,和合作,Cooperation,每个模型都有其独特的优势,这种多样性促进了这些模型之间的合作研究尽管LLMs通过ICL和指令跟随在各种任务上表现出强大的多样性,但不同...
-
中英图文混排文档都能读的多模态大模型Fox AI读论文新神器 多栏密集文字
虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思,面对文字密集、多栏混排等文档时往往力不从心,区域级别的细粒度理解,就更是无从谈起了,最近,旷视团队打造了一支多模态大模型的,点读笔,——,轻松实现对8页文档,中英混合,单栏多栏格式混合的极端场景,的交互式感知理解,对于信息密集的PDF文档...
-
编辑 入门必读!多模态大语言模型的演变全回顾! 图像生成 理解 视觉定位
文章链接,https,arxiv.org,abs,2402.12451连接文本和视觉模态在生成式AI中起着至关重要的作用,受到大语言模型,本文简称LLM,成功的启发,人们正在致力于开发多模态大语言模型,MLLMs,这些模型可以无缝地集成视觉和文本模态,既作为输入又作为输出,同时提供基于对话的界面和指...
-
Qwen2
文章链接,https,arxiv.org,pdf,2409.12191Github链接,https,github.com,QwenLM,Qwen2,VL亮点直击本文介绍了Qwen系列大型视觉语言模型的最新成员,Qwen2,VL系列,该系列包括三款开放权重模型,总参数量分别为20亿、80亿和720亿,...
-
为什么需要提示词工程 什么是提示词工程 engineering prompt
提示词工程,是一种不需要更新模型权重和参数来引导模型输出特定结果的方法,大模型之所以叫大模型,不但是因为其参数量大,还有训练与运营成本高,因此,从企业运营成本来说,使用大模型能用提示词解决就坚决不微调,fine,tunning,,能微调解决就坚持不重新训练或设计,那么提示词是什么,为什么需要提示词,...
-
最高1410亿参数 专用于法律的两个开源大模型
法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型——SaulLM,SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本,SaulLM的最大特色是使用了5亿token的专业法律数据进行了预训练,包括美国、欧洲、澳大利亚等地的法律文本,输出内容...
-
披上Agent盔甲的RAG 从此不再只是召回生成!
嘿,大家好!这里是一个专注于AI智能体的频道!今天我要和大家聊聊一些实战相关的内容,大模型在实际的工业场景下最常见的2个场景分别为应用助手,copilot,文档,知识库问答,RAG,事实上后者也逐渐在往更复杂的Agentic方向发展了,今天我们来看以下如何搭建一个可控的RAGAgent,RAGAge...
-
Arctic
高质量数据对于语言模型的有效预训练至关重要,然而,,高质量,的精确定义仍未得到充分探索,聚焦于代码领域,论文引入了Arctic,SnowCoder,1.3B,这是一个数据高效的基础代码模型,通过三个阶段的逐步精炼数据进行预训练,共处理了555Btoken,1,使用500B个标准质量代码token进行...
-
3.5 Anthropic 升级版 Claude 像人一样操控电脑 模型 Sonnet
在人工智能的创新之路上,Anthropic公司再次成为焦点,其推出的升级版Claude3.5Sonnet模型引发了广泛关注与热议,一个核心问题摆在我们面前,它真的能够像人一样操控电脑吗,一、模型发展与新特性亮相Claude3.5Sonnet模型有着清晰的发展脉络,2024年6月21日首次推出时,它就...
-
Meta发表的将系统2模型蒸馏至系统1模型
一、结论写在前面论文标题,DistillingSystem2intoSystem1论文链接,https,arxiv.org,pdf,2407.06023v2LLMs在推理过程中可以额外消耗计算资源来生成中间思维,这有助于产生更好的最终响应,自思维链以来,已经提出了许多此类系统2技术,例如重述...
-
提升大规模并行训练效率的方法 LLM
一、结论写在前面论文来自阿里巴巴,论文标题,BoostingLarge,scaleParallelTrainingEfficiencywithC4,ACommunication,DrivenApproach论文链接,https,arxiv.org,pdf,2406.04594LLMs的出现促...
-
Meta等最新研究 多token预测 提升大模型推理效率
GPT,4、Gemini系列、Llama,3等开闭源大模型,通常使用的是下一个token预测,Next,tokenPrediction,的损失函数进行预训练,这种方法虽然强大,但有很多局限性,例如,需要大量的训练数据才能使模型达到人类儿童的智商,并且随着模型参数的增大推理效率会变差,因此,Meta、...
-
GLM 人工智能新高度
在当今人工智能飞速发展的时代,各种先进的大模型不断涌现,为我们的生活和工作带来了前所未有的变革,今天,让我们一同走进智谱AI推出的GLM,4,Plus大模型,深入了解它的独特魅力和强大功能,一、GLM,4,Plus简介智谱GLM团队重磅发布了新一代基座大模型——GLM,4,Plus,作为智谱全自研G...
-
Informer 拒绝信息泄露!VMD滚动分解
前言在时间序列预测任务中,像EMD,经验模态分解,、CEEMDAN,完全集合经验模态分解,、VMD,变分模态分解,等分解算法的使用有可能引入信息泄露,具体情况取决于这些方法的应用方式,信息泄露的主要风险在于,将未来的信息泄露给了模型,使得模型在实际应用中表现得比应有的好,为了防止信息泄露,我们在分...