包含"清言"标签的文章
-
2024 ICML
本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学,研究方向包括深度学习理论,大语言模型理论,统计机器学习等等,目前已在ICLR,ICML,Neurips等AI顶会发表多篇论文,上下文学习,in,contextlearning,简写为ICL,已经在很多L...
-
2万亿token碾压Llama 2 革命新架构掀翻Transformer!无限上下文处理
继Mamba之后,又一敢于挑战Transformer的架构诞生了!来自Meta、南加州大学,USC,、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon,巨齿鲨,这是专为有效处理,无限上下文,长度的LLM预训练,以及推理而设计的架构,论文地址,https,arxiv.org...
-
编码能力超级加倍! 顶穿天花板!AI编程初创公司挑战1亿上下文窗口
编辑,言征超长上下文窗口的天花板来了!刚刚宣布新一轮3.2亿美元融资的AI编码初创新星Magic刚刚放出了一个重磅炸弹,推出首个1亿上下文窗口的模型LTM,2,mini!想一下,1亿上下文窗口,相当于你可以在prompt中直接丢给大模型1000万行代码或者750本英文小说,然后告诉大模型一次性消化这...
-
AI发布Janus DeepSeek 一款拥有图像生成能力的1.3B多模态模型
01、概述在当今人工智能的浪潮中,多模态模型的崛起为我们带来了前所未有的创新可能性,最近,DeepSeekAI推出了其最新力作——Janus,这是一款具备强大图像生成能力的多模态模型,拥有13亿参数,这款模型的问世,将进一步推动AI在多个领域的应用,本文将带您深入了解Janus的独特之处及其广泛的应...
-
TSLANet 时间序列模型的新构思
时间序列数据具有内在的长程和短程依赖性,对分析应用提出了独特的挑战,虽然基于Transformer的模型擅长捕获长程依赖关系,但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性,本次的研究人员引入了一种新颖的时间序列轻量级自适应网络,TSLANet,,作为各种时间序列任务的通用卷积模...
-
AI新思考 的草莓模型 浴火重生
这个模型肯定比我更擅长解决AP数学考试,而且我在大学时辅修数学,,OpenAI的首席研究官鲍勃·麦格鲁,BobMcGrew,告诉我,他说,OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试,虽然GPT,4o只正确解决了13%的问题,但o1的得分为83%,OpenAI发布名为o1新模型,...
-
vLLM AI架构系列 MLC LMDeploy
训练大型语言模型以及微调的教程比比皆是,但关于在生产环境中部署它们并监控其活动的资料相对稀缺,上章节提到了未来云原生的AI是趋势,然而涉及到云原生会比较偏技术,而在此之前为了解决大模型部署量产的问题,社区也一直在探索,目前已有不少工具可用于这个领域,另一方面,选择正确的推理后端为大型语言模型,LLM...
-
在消费级GPU上奔跑的 瘦子 WordLlama
DavidMiller表示该模型的目标很明确,弥合尖端AI研究和实际应用之间的差距,他认识到,许多现有NLP模型需要大量的计算资源,并且通常局限于专有系统,从而限制了它们的可访问性,作为回应,WordLlama被设计为既轻量级又高效,使更广泛的用户能够在不牺牲质量的情况下将高性能NLP集成到他们的工...
-
LLM基础模型系列 深入注意力机制
大模型技术论文不断,每个月总会新增上千篇,本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产,若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读,而最新科技,Mamba,xLSTM,KAN,则提供了大模型领域最新技术跟踪,1.自注意...
-
十年一剑 的利器 NiFi 1 初识这把
现在AI和数据处理密不可分,80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题,快速完成场景建设,犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐,对于全栈式的数据分析师或者数据应用的Java研发工程师,NiFi让其摆脱复杂的数据工程,而是将精力放在分析和应用的创新之上,而NiF...
-
NVIDIA ViT篇外 Llama
大家也许会很好奇为什么在ViT章节插入了NVIDIALlama,3.1,Minitron4B,ViT因为应用场景的特殊性所以都寄希望于高效率的模型,因此各种针对大参数模型的提炼和优化技术层出不穷,而NVIDIALlama,3.1,Minitron则复现了这些系列的教科书实验,对于一些基本的术语,可以...
-
Python编程篇 优雅谈大模型
Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,然而Python拥有庞大的机器学习库和框架,尤其是生态系统比以往任何时候又强大了不少,从另外维度它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候,本文科普和机器学习相关Pytho...
-
1.5开源来袭 Jamba前生今世
Jamba算是世界上第一款基于Mamba的生产级别的模型,近日AI21Labs发布Jamba1.5系列开放模型,包括Jamba1.5Mini和Jamba1.5Large,这些模型建立在新颖的SSM,Transformer架构之上,某种意义上也算是AI技术的突破,Jamba1.5创新的核心是其令人印象...
-
AI架构系列 去其形而留其意
最近很多的咨询都在问我相同的问题,如何将LLM集成到垂直领域的业务场景,这里提到的场景当然这些场景不再是生成式应用,而是较为专业的领域,我翻了一篇三月份的论文,以这篇论文来回答读者的问题,其实就是要将LLM去其形,而留其意,LLM的主要战场还是在于自然语言的理解,其一它的特点是大,其二它的内核为Tr...
-
LangChain LlamaIndex 优雅谈大模型 Vs.
实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产,若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读,而最新科技,Mamba,xLSTM,KAN,则提供了大模型领域最新技术跟踪,若对于具身智能感兴趣的请移步具身智能专栏,技术宅麻烦死...