包含"Agent"标签的文章

  • ShareGPT4V作者团队又一力作!百万高质量视频

      继Sora官宣之后,多模态大模型在视频生成方面的应用简直就像井喷一样涌现出来,LUMA、Gen,3Alpha等视频生成模型展现了极佳质量的艺术风格和视频场景的细节雕刻能力,文生视频、图生视频的新前沿不断被扩展令大家惊喜不已,抱有期待,最近,来自中国科学技术大学、北京大学、上海AILab等团队的研究人...

    2024-11-14 496
  • 2024 ICML

      本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学,研究方向包括深度学习理论,大语言模型理论,统计机器学习等等,目前已在ICLR,ICML,Neurips等AI顶会发表多篇论文,上下文学习,in,contextlearning,简写为ICL,已经在很多L...

    2024-11-14 923
  • 2万亿token碾压Llama 2 革命新架构掀翻Transformer!无限上下文处理

      继Mamba之后,又一敢于挑战Transformer的架构诞生了!来自Meta、南加州大学,USC,、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon,巨齿鲨,这是专为有效处理,无限上下文,长度的LLM预训练,以及推理而设计的架构,论文地址,​​https,arxiv.org...

    2024-11-14 598
  • 编码能力超级加倍! 顶穿天花板!AI编程初创公司挑战1亿上下文窗口

      编辑,言征超长上下文窗口的天花板来了!刚刚宣布新一轮3.2亿美元融资的AI编码初创新星Magic刚刚放出了一个重磅炸弹,推出首个1亿上下文窗口的模型LTM,2,mini!想一下,1亿上下文窗口,相当于你可以在prompt中直接丢给大模型1000万行代码或者750本英文小说,然后告诉大模型一次性消化这...

    2024-11-14 682
  • AI发布Janus DeepSeek 一款拥有图像生成能力的1.3B多模态模型

      01、概述在当今人工智能的浪潮中,多模态模型的崛起为我们带来了前所未有的创新可能性,最近,DeepSeekAI推出了其最新力作——Janus,这是一款具备强大图像生成能力的多模态模型,拥有13亿参数,这款模型的问世,将进一步推动AI在多个领域的应用,本文将带您深入了解Janus的独特之处及其广泛的应...

    2024-11-14 939
  • TSLANet 时间序列模型的新构思

      时间序列数据具有内在的长程和短程依赖性,对分析应用提出了独特的挑战,虽然基于Transformer的模型擅长捕获长程依赖关系,但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性,本次的研究人员引入了一种新颖的时间序列轻量级自适应网络,TSLANet,,作为各种时间序列任务的通用卷积模...

    2024-11-14 217
  • AI新思考 的草莓模型 浴火重生

      这个模型肯定比我更擅长解决AP数学考试,而且我在大学时辅修数学,,OpenAI的首席研究官鲍勃·麦格鲁,BobMcGrew,告诉我,他说,OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试,虽然GPT,4o只正确解决了13%的问题,但o1的得分为83%,OpenAI发布名为o1新模型,...

    2024-11-14 759
  • vLLM AI架构系列 MLC LMDeploy

      训练大型语言模型以及微调的教程比比皆是,但关于在生产环境中部署它们并监控其活动的资料相对稀缺,上章节提到了未来云原生的AI是趋势,然而涉及到云原生会比较偏技术,而在此之前为了解决大模型部署量产的问题,社区也一直在探索,目前已有不少工具可用于这个领域,另一方面,选择正确的推理后端为大型语言模型,LLM...

    2024-11-14 216
  • 在消费级GPU上奔跑的 瘦子 WordLlama

      DavidMiller表示该模型的目标很明确,弥合尖端AI研究和实际应用之间的差距,他认识到,许多现有NLP模型需要大量的计算资源,并且通常局限于专有系统,从而限制了它们的可访问性,作为回应,WordLlama被设计为既轻量级又高效,使更广泛的用户能够在不牺牲质量的情况下将高性能NLP集成到他们的工...

    2024-11-14 485
  • LLM基础模型系列 深入注意力机制

      大模型技术论文不断,每个月总会新增上千篇,本专栏​​精选论文​​​重点解读,主题还是围绕着行业实践和工程量产,若在某个环节出现卡点,可以回到​​大模型必备腔调​​​或者​​LLM背后的基础模型​​​新阅读,而​​最新科技,Mamba,xLSTM,KAN,​​则提供了大模型领域最新技术跟踪,1.自注意...

    2024-11-14 437
  • 十年一剑 的利器 NiFi 1 初识这把

      现在AI和数据处理密不可分,80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题,快速完成场景建设,犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐,对于全栈式的数据分析师或者数据应用的Java研发工程师,NiFi让其摆脱复杂的数据工程,而是将精力放在分析和应用的创新之上,而NiF...

    2024-11-14 134
  • NVIDIA ViT篇外 Llama

      大家也许会很好奇为什么在ViT章节插入了NVIDIALlama,3.1,Minitron4B,ViT因为应用场景的特殊性所以都寄希望于高效率的模型,因此各种针对大参数模型的提炼和优化技术层出不穷,而NVIDIALlama,3.1,Minitron则复现了这些系列的教科书实验,对于一些基本的术语,可以...

    2024-11-14 461
  • Python编程篇 优雅谈大模型

      Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,然而Python拥有庞大的机器学习库和框架,尤其是生态系统比以往任何时候又强大了不少,从另外维度它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候,本文科普和机器学习相关Pytho...

    2024-11-14 441
  • 1.5开源来袭 Jamba前生今世

      Jamba算是世界上第一款基于Mamba的生产级别的模型,近日AI21Labs发布Jamba1.5系列开放模型,包括Jamba1.5Mini和Jamba1.5Large,这些模型建立在新颖的SSM,Transformer架构之上,某种意义上也算是AI技术的突破,Jamba1.5创新的核心是其令人印象...

    2024-11-14 841
  • AI架构系列 去其形而留其意

      最近很多的咨询都在问我相同的问题,如何将LLM集成到垂直领域的业务场景,这里提到的场景当然这些场景不再是生成式应用,而是较为专业的领域,我翻了一篇三月份的论文,以这篇论文来回答读者的问题,其实就是要将LLM去其形,而留其意,LLM的主要战场还是在于自然语言的理解,其一它的特点是大,其二它的内核为Tr...

    2024-11-14 351

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息