包含"模型"标签的文章
-
学会区分大模型
乱花渐欲迷人眼,学会从根本上认识问题,现在市面上大模型如百花齐放,对很多人来说一堆大模型带来的不是简单方便,而是乱七八糟以及迷茫,因为不知道不同的大模型之间有什么区别,也不知道自己需要什么样的大模型;就拿huggingface来说,上面的模型有几十万,有几个人能弄明白它们都是干什么的,因此,我们首先...
-
高效视觉 让具身智能更快更强!华东师大& 上大提出TinyVLA
论文链接,https,arxiv.org,pdf,2409.12514项目链接,https,tiny,vla.github.io,具身智能近期发展迅速,拥有了大模型大脑的机械臂在动作上更加高效和精确,但现有的一个难点是,模型受到算力和数据的制约,如何使用更少的训练数据,以更快的推理速度,实现媲美Op...
-
微软开源GraphRAG 摘要 极大增强大模型问答 推理
7月3日,微软在官网开源了基于图的RAG,检索增强生成,——GraphRAG,为了增强大模型的搜索、问答、摘要、推理等能力,RAG已经成为GPT,4、Qwen,2、文心一言、讯飞星火、Gemini等国内外知名大模型标配功能,传统的RAG系统在处理外部数据源时,只是简单地将文档转换为文本,将其分割为片...
-
知其然知其所以然 模型也能
1.引言部分今天要给大家分享一篇很有意思的论文,这篇论文主要解决的是什么问题呢,就是如何让大语言模型在专业领域,比如医疗、科学领域表现得更好,你们有没有想过,虽然现在的ChatGPT、Claude这些大模型很厉害,但在专业领域它们的表现还是不够好,对吧,比如说,当我们问它一个关于支气管扩张的专业问题...
-
对比调优 减少多模态模型幻觉 谷歌通过数据增强
随着Gemini、GPT,4o等模型的出现,具备看、听、说的多模态大模型成为了新的主流,由于训练数据复杂、模型架构过于复杂,在生成、识别内容时很容易出现错误描述也称为,幻觉,,例如,当看到一张包含刀、叉和勺子的餐具图片时,模型会错误地描述为牙签,为了解决这个难题,谷歌DeepMind、谷歌云AI研究...
-
国内首个中文原生DiT架构SOTA大模型全面开源!
非常令人激动,腾讯混元文生图大模型已在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,且不管是企业还是个人开发者,全部免费可用,主页,https,dit.hunyuan.tencent.com,代码,https,github.com,Tencent,Hun...
-
2024 ICML
本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学,研究方向包括深度学习理论,大语言模型理论,统计机器学习等等,目前已在ICLR,ICML,Neurips等AI顶会发表多篇论文,上下文学习,in,contextlearning,简写为ICL,已经在很多L...
-
TSLANet 时间序列模型的新构思
时间序列数据具有内在的长程和短程依赖性,对分析应用提出了独特的挑战,虽然基于Transformer的模型擅长捕获长程依赖关系,但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性,本次的研究人员引入了一种新颖的时间序列轻量级自适应网络,TSLANet,,作为各种时间序列任务的通用卷积模...
-
AI新思考 的草莓模型 浴火重生
这个模型肯定比我更擅长解决AP数学考试,而且我在大学时辅修数学,,OpenAI的首席研究官鲍勃·麦格鲁,BobMcGrew,告诉我,他说,OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试,虽然GPT,4o只正确解决了13%的问题,但o1的得分为83%,OpenAI发布名为o1新模型,...
-
LLM基础模型系列 深入注意力机制
大模型技术论文不断,每个月总会新增上千篇,本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产,若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读,而最新科技,Mamba,xLSTM,KAN,则提供了大模型领域最新技术跟踪,1.自注意...
-
Python编程篇 优雅谈大模型
Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,然而Python拥有庞大的机器学习库和框架,尤其是生态系统比以往任何时候又强大了不少,从另外维度它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候,本文科普和机器学习相关Pytho...
-
1.5开源来袭 Jamba前生今世
Jamba算是世界上第一款基于Mamba的生产级别的模型,近日AI21Labs发布Jamba1.5系列开放模型,包括Jamba1.5Mini和Jamba1.5Large,这些模型建立在新颖的SSM,Transformer架构之上,某种意义上也算是AI技术的突破,Jamba1.5创新的核心是其令人印象...
-
LangChain LlamaIndex 优雅谈大模型 Vs.
实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产,若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读,而最新科技,Mamba,xLSTM,KAN,则提供了大模型领域最新技术跟踪,若对于具身智能感兴趣的请移步具身智能专栏,技术宅麻烦死...
-
一次样本提示和少样本提示以及思维链 大模型提示词进阶 of Chain Thought Cot 零样本提示
技术的核心只有两点,一个是把技术做好,一个是把技术用好,在之前的文章中曾经说过,预训练和微调是为了打造一个更好用的大模型,而提示学习是为了更好的使用大模型,激发大模型的潜能,而基于提示学习发展起来的提示词工程,也就是怎么写一个更好的提示词;网络上已经有很多经过检验的提示词框架,比如APE,BROKE...
-
的双过程理论减少模型有害输出 慢思考 提示工程策略 利用
1.思考的快与慢诺贝尔经济学奖得主卡尼曼在,Thinking,FastandSlow,这本书中根据前人多种双过程理论,DualProcessTheory,进行了总结和进一步解释,将人类的思考过程分为,直觉,和,推理,,这两个过程分别被称为,系统1,System1,和,系统2,System2,系统一的...