模型_第14页_坚曼百货商行

学会区分大模型

乱花渐欲迷人眼，学会从根本上认识问题，现在市面上大模型如百花齐放，对很多人来说一堆大模型带来的不是简单方便，而是乱七八糟以及迷茫，因为不知道不同的大模型之间有什么区别，也不知道自己需要什么样的大模型；就拿huggingface来说，上面的模型有几十万，有几个人能弄明白它们都是干什么的，因此，我们首先...

2024-11-14 640

百货快讯

高效视觉让具身智能更快更强！华东师大&amp 上大提出TinyVLA

论文链接，https，arxiv.org，pdf，2409.12514项目链接，https，tiny，vla.github.io，具身智能近期发展迅速，拥有了大模型大脑的机械臂在动作上更加高效和精确，但现有的一个难点是，模型受到算力和数据的制约，如何使用更少的训练数据，以更快的推理速度，实现媲美Op...

2024-11-14 244

资讯

微软开源GraphRAG 摘要极大增强大模型问答推理

7月3日，微软在官网开源了基于图的RAG，检索增强生成，——GraphRAG，为了增强大模型的搜索、问答、摘要、推理等能力，RAG已经成为GPT，4、Qwen，2、文心一言、讯飞星火、Gemini等国内外知名大模型标配功能，传统的RAG系统在处理外部数据源时，只是简单地将文档转换为文本，将其分割为片...

2024-11-14 614

百货

知其然知其所以然模型也能

1.引言部分今天要给大家分享一篇很有意思的论文，这篇论文主要解决的是什么问题呢，就是如何让大语言模型在专业领域，比如医疗、科学领域表现得更好，你们有没有想过，虽然现在的ChatGPT、Claude这些大模型很厉害，但在专业领域它们的表现还是不够好，对吧，比如说，当我们问它一个关于支气管扩张的专业问题...

2024-11-14 996

娱乐八卦

对比调优减少多模态模型幻觉谷歌通过数据增强

随着Gemini、GPT，4o等模型的出现，具备看、听、说的多模态大模型成为了新的主流，由于训练数据复杂、模型架构过于复杂，在生成、识别内容时很容易出现错误描述也称为，幻觉，，例如，当看到一张包含刀、叉和勺子的餐具图片时，模型会错误地描述为牙签，为了解决这个难题，谷歌DeepMind、谷歌云AI研究...

2024-11-14 279

母婴用品

国内首个中文原生DiT架构SOTA大模型全面开源！

非常令人激动，腾讯混元文生图大模型已在HuggingFace平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，且不管是企业还是个人开发者，全部免费可用，主页，https，dit.hunyuan.tencent.com，代码，https，github.com，Tencent，Hun...

2024-11-14 629

饰品装饰

2024 ICML

本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学，研究方向包括深度学习理论，大语言模型理论，统计机器学习等等，目前已在ICLR，ICML，Neurips等AI顶会发表多篇论文，上下文学习，in，contextlearning，简写为ICL，已经在很多L...

2024-11-14 923

家电数码

TSLANet 时间序列模型的新构思

时间序列数据具有内在的长程和短程依赖性，对分析应用提出了独特的挑战，虽然基于Transformer的模型擅长捕获长程依赖关系，但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性，本次的研究人员引入了一种新颖的时间序列轻量级自适应网络，TSLANet，，作为各种时间序列任务的通用卷积模...

2024-11-14 217

科技

AI新思考的草莓模型浴火重生

这个模型肯定比我更擅长解决AP数学考试，而且我在大学时辅修数学，，OpenAI的首席研究官鲍勃·麦格鲁，BobMcGrew，告诉我，他说，OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试，虽然GPT，4o只正确解决了13%的问题，但o1的得分为83%，OpenAI发布名为o1新模型，...

2024-11-14 759

资讯

LLM基础模型系列深入注意力机制

大模型技术论文不断，每个月总会新增上千篇，本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产，若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读，而最新科技，Mamba，xLSTM，KAN，则提供了大模型领域最新技术跟踪，1.自注意...

2024-11-14 437

资讯

Python编程篇优雅谈大模型

Python在机器学习领域的地位十分关键，虽然后面有Julia，Mojo等其他对手的挑战，然而Python拥有庞大的机器学习库和框架，尤其是生态系统比以往任何时候又强大了不少，从另外维度它和Java，Scala，Go，Rust等编程语言对比，在工程化方面还是稍欠火候，本文科普和机器学习相关Pytho...

2024-11-14 441

家电数码

1.5开源来袭 Jamba前生今世

Jamba算是世界上第一款基于Mamba的生产级别的模型，近日AI21Labs发布Jamba1.5系列开放模型，包括Jamba1.5Mini和Jamba1.5Large，这些模型建立在新颖的SSM，Transformer架构之上，某种意义上也算是AI技术的突破，Jamba1.5创新的核心是其令人印象...

2024-11-14 841

资讯

LangChain LlamaIndex 优雅谈大模型 Vs.

实时了解业内动态，论文是最好的桥梁，专栏精选论文重点解读热点论文，围绕着行业实践和工程量产，若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读，而最新科技，Mamba，xLSTM，KAN，则提供了大模型领域最新技术跟踪，若对于具身智能感兴趣的请移步具身智能专栏，技术宅麻烦死...

2024-11-14 960

玩具模型

一次样本提示和少样本提示以及思维链大模型提示词进阶 of Chain Thought Cot 零样本提示

技术的核心只有两点，一个是把技术做好，一个是把技术用好，在之前的文章中曾经说过，预训练和微调是为了打造一个更好用的大模型，而提示学习是为了更好的使用大模型，激发大模型的潜能，而基于提示学习发展起来的提示词工程，也就是怎么写一个更好的提示词；网络上已经有很多经过检验的提示词框架，比如APE，BROKE...

2024-11-14 702

生活资讯

的双过程理论减少模型有害输出慢思考提示工程策略利用

1.思考的快与慢诺贝尔经济学奖得主卡尼曼在，Thinking，FastandSlow，这本书中根据前人多种双过程理论，DualProcessTheory，进行了总结和进一步解释，将人类的思考过程分为，直觉，和，推理，，这两个过程分别被称为，系统1，System1，和，系统2，System2，系统一的...

2024-11-14 703

包含"模型"标签的文章