清言_第47页_坚曼百货商行

2024 ICML

本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学，研究方向包括深度学习理论，大语言模型理论，统计机器学习等等，目前已在ICLR，ICML，Neurips等AI顶会发表多篇论文，上下文学习，in，contextlearning，简写为ICL，已经在很多L...

2024-11-14 923

娱乐

2万亿token碾压Llama 2 革命新架构掀翻Transformer！无限上下文处理

继Mamba之后，又一敢于挑战Transformer的架构诞生了！来自Meta、南加州大学，USC，、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon，巨齿鲨，这是专为有效处理，无限上下文，长度的LLM预训练，以及推理而设计的架构，论文地址，https，arxiv.org...

2024-11-14 598

百货

编码能力超级加倍！顶穿天花板！AI编程初创公司挑战1亿上下文窗口

编辑，言征超长上下文窗口的天花板来了！刚刚宣布新一轮3.2亿美元融资的AI编码初创新星Magic刚刚放出了一个重磅炸弹，推出首个1亿上下文窗口的模型LTM，2，mini！想一下，1亿上下文窗口，相当于你可以在prompt中直接丢给大模型1000万行代码或者750本英文小说，然后告诉大模型一次性消化这...

2024-11-14 683

其他百货

AI发布Janus DeepSeek 一款拥有图像生成能力的1.3B多模态模型

01、概述在当今人工智能的浪潮中，多模态模型的崛起为我们带来了前所未有的创新可能性，最近，DeepSeekAI推出了其最新力作——Janus，这是一款具备强大图像生成能力的多模态模型，拥有13亿参数，这款模型的问世，将进一步推动AI在多个领域的应用，本文将带您深入了解Janus的独特之处及其广泛的应...

2024-11-14 939

家电数码

TSLANet 时间序列模型的新构思

时间序列数据具有内在的长程和短程依赖性，对分析应用提出了独特的挑战，虽然基于Transformer的模型擅长捕获长程依赖关系，但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性，本次的研究人员引入了一种新颖的时间序列轻量级自适应网络，TSLANet，，作为各种时间序列任务的通用卷积模...

2024-11-14 217

科技

AI新思考的草莓模型浴火重生

这个模型肯定比我更擅长解决AP数学考试，而且我在大学时辅修数学，，OpenAI的首席研究官鲍勃·麦格鲁，BobMcGrew，告诉我，他说，OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试，虽然GPT，4o只正确解决了13%的问题，但o1的得分为83%，OpenAI发布名为o1新模型，...

2024-11-14 759

头条

vLLM AI架构系列 MLC LMDeploy

训练大型语言模型以及微调的教程比比皆是，但关于在生产环境中部署它们并监控其活动的资料相对稀缺，上章节提到了未来云原生的AI是趋势，然而涉及到云原生会比较偏技术，而在此之前为了解决大模型部署量产的问题，社区也一直在探索，目前已有不少工具可用于这个领域，另一方面，选择正确的推理后端为大型语言模型，LLM...

2024-11-14 217

娱乐八卦

在消费级GPU上奔跑的瘦子 WordLlama

DavidMiller表示该模型的目标很明确，弥合尖端AI研究和实际应用之间的差距，他认识到，许多现有NLP模型需要大量的计算资源，并且通常局限于专有系统，从而限制了它们的可访问性，作为回应，WordLlama被设计为既轻量级又高效，使更广泛的用户能够在不牺牲质量的情况下将高性能NLP集成到他们的工...

2024-11-14 485

资讯

LLM基础模型系列深入注意力机制

大模型技术论文不断，每个月总会新增上千篇，本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产，若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读，而最新科技，Mamba，xLSTM，KAN，则提供了大模型领域最新技术跟踪，1.自注意...

2024-11-14 438

头条

十年一剑的利器 NiFi 1 初识这把

现在AI和数据处理密不可分，80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题，快速完成场景建设，犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐，对于全栈式的数据分析师或者数据应用的Java研发工程师，NiFi让其摆脱复杂的数据工程，而是将精力放在分析和应用的创新之上，而NiF...

2024-11-14 134

数码资讯

NVIDIA ViT篇外 Llama

大家也许会很好奇为什么在ViT章节插入了NVIDIALlama，3.1，Minitron4B，ViT因为应用场景的特殊性所以都寄希望于高效率的模型，因此各种针对大参数模型的提炼和优化技术层出不穷，而NVIDIALlama，3.1，Minitron则复现了这些系列的教科书实验，对于一些基本的术语，可以...

2024-11-14 461

资讯

Python编程篇优雅谈大模型

Python在机器学习领域的地位十分关键，虽然后面有Julia，Mojo等其他对手的挑战，然而Python拥有庞大的机器学习库和框架，尤其是生态系统比以往任何时候又强大了不少，从另外维度它和Java，Scala，Go，Rust等编程语言对比，在工程化方面还是稍欠火候，本文科普和机器学习相关Pytho...

2024-11-14 442

家电数码

1.5开源来袭 Jamba前生今世

Jamba算是世界上第一款基于Mamba的生产级别的模型，近日AI21Labs发布Jamba1.5系列开放模型，包括Jamba1.5Mini和Jamba1.5Large，这些模型建立在新颖的SSM，Transformer架构之上，某种意义上也算是AI技术的突破，Jamba1.5创新的核心是其令人印象...

2024-11-14 841

生活资讯

AI架构系列去其形而留其意

最近很多的咨询都在问我相同的问题，如何将LLM集成到垂直领域的业务场景，这里提到的场景当然这些场景不再是生成式应用，而是较为专业的领域，我翻了一篇三月份的论文，以这篇论文来回答读者的问题，其实就是要将LLM去其形，而留其意，LLM的主要战场还是在于自然语言的理解，其一它的特点是大，其二它的内核为Tr...

2024-11-14 352

资讯

LangChain LlamaIndex 优雅谈大模型 Vs.

实时了解业内动态，论文是最好的桥梁，专栏精选论文重点解读热点论文，围绕着行业实践和工程量产，若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读，而最新科技，Mamba，xLSTM，KAN，则提供了大模型领域最新技术跟踪，若对于具身智能感兴趣的请移步具身智能专栏，技术宅麻烦死...

2024-11-14 961

包含"清言"标签的文章