包含"大模型"标签的文章

  • 你能学到什么 当你研究过了900个开源大模型项目后

      国外一美女程序员,在Github上通过检索gpt,llm,和generativeai等关键字,从数十万检索结果中得到900个500,star大模型开源项目,她将统计结果放到了网站上,并定期更新star数等信息,同时提供了排序,分组,过滤等工具,我们也可以拿她的统计结果来进行分析,​​https,hu...

    2024-11-15 386
  • Web2Code 适用于多模态大模型的大规模网页转代码数据集与评估框架

      一、结论写在前面论文标题,Web2Code,ALarge,scaleWebpage,to,Code&gt,论文链接,​​https,arxiv.org,pdf,2406.20098​​项目链接,​​https,mbzuai,llm.github.io,webpage2code,​​多模态大型...

    2024-11-15 911
  • 2来了 再战Transformer!原作者带队的Mamba 新架构训练效率大幅提升

      自2017年被提出以来,Transformer已经成为AI大模型的主流架构,一直稳居语言建模方面C位,但随着模型规模的扩展和需要处理的序列不断变长,Transformer的局限性也逐渐凸显,一个很明显的缺陷是,Transformer模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,几个月...

    2024-11-15 514
  • Arctic

      高质量数据对于语言模型的有效预训练至关重要,然而,,高质量,的精确定义仍未得到充分探索,聚焦于代码领域,论文引入了Arctic,SnowCoder,1.3B,这是一个数据高效的基础代码模型,通过三个阶段的逐步精炼数据进行预训练,共处理了555Btoken,1,使用500B个标准质量代码token进行...

    2024-11-15 226
  • AI记忆模块如何提升生成质量 揭秘MemoRAG

      RAG技术已经成为当下提升大语言模型,LLMs,生成质量的重要手段,然而,传统的RAG方法在处理模糊信息需求或非结构化知识时存在显著局限性,近期,一项名为,MEMORAG,MOVINGTOWARDSNEXT,GENRAGVIAMEMORY,INSPIREDKNOWLEDGEDISCOVERY[1],...

    2024-11-15 104
  • Sam GPT Altman

      5月16日,OpenAI首席执行官SamAltman接受了,硅谷著名风险投资公司红点,Redpoint,的董事兼总经理LoganBartlett专访,本周二,OpenAI重磅发布了可跨文本、视频、音频推理的多模态大模型GPT,4o,其多元化的玩法、低延迟以及拟人化的声音,让11年前的科幻电影,Her...

    2024-11-15 697
  • 如何革新关键点检测技术 v2 更明亮 眼 科技前沿 让AI 揭秘DeDoDe

      在人工智能领域,关键点检测技术一直是计算机视觉研究的重要课题,近期,来自Linköping大学、Chalmers大学、香港中文大学以及TexasA&amp,M大学的科研团队,成功推出了DeDoDev2——一款革新性的关键点检测器,今天,就让我们一起揭开DeDoDev2的神秘面纱,看看它是如何...

    2024-11-15 944
  • Preparedness团队首席Aleksander Madry 机器学习模型的内部计算如何将输入转化为预测 OpenAI

      考虑一个标准的ResNet50模型,该模型经过训练用于图像分类任务,我们是否能够理解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签,或者,GPT,3中的注意力头如何contribute到下一个标记的预测,理解这些模型组件——包括滤波器或头等架构,构建块,——如何集体塑造模型行为,包括模型失败...

    2024-11-15 259
  • 清华大学提出1

      在深度神经网络的训练过程中,全量化训练,FullyQuantizedTraining,FQT,通过将激活值、权重和梯度量化到较低的精度,显著加速了训练过程,随着对训练数值精度的不断压缩,一个自然而然的问题浮现出来,全量化训练的极限是什么,即,能够实现的最低位宽是多少,理想情况下,如果能将位宽压缩到1...

    2024-11-15 832
  • OpenAI上新sCM!生成速度提升50倍 Law 两步采样就出图 再创奇迹 Scaling 实时视频时代或将开启!

      传统扩散模型要过时了,OpenAI找到一种新方法,直接把生成速度提高50倍!扩散模型在生成式AI领域的重要性不言而喻,把生成逼真的图像、3D模型、音频和视频变为了现实,但是,扩散模型依然有个致命bug——采样速度太慢,OpenAI研究的新方法,被称为sCM,连续时间一致性模型,sCM在仅使用两个采样...

    2024-11-15 826
  • 3.5 Anthropic 升级版 Claude 像人一样操控电脑 模型 Sonnet

      在人工智能的创新之路上,Anthropic公司再次成为焦点,其推出的升级版Claude3.5Sonnet模型引发了广泛关注与热议,一个核心问题摆在我们面前,它真的能够像人一样操控电脑吗,一、模型发展与新特性亮相Claude3.5Sonnet模型有着清晰的发展脉络,2024年6月21日首次推出时,它就...

    2024-11-15 698
  • 他是如何使用LLM提升10倍效率的 让Google大牛告诉你

      近年来,大型语言模型,LLM,在人工智能领域引起了巨大关注,有人认为它们是革命性的技术,将彻底改变我们的工作和生活方式,而另一些人则认为它们只是炒作,没有实际价值,Google技术专家NicholasCarlini在文章,HowIUseAI,中给出了他对LLM的看法,并展示它们如何帮助他提高工作效率...

    2024-11-15 769
  • Meta发表的将系统2模型蒸馏至系统1模型

      一、结论写在前面论文标题,DistillingSystem2intoSystem1论文链接,​​https,arxiv.org,pdf,2407.06023v2​​LLMs在推理过程中可以额外消耗计算资源来生成中间思维,这有助于产生更好的最终响应,自思维链以来,已经提出了许多此类系统2技术,例如重述...

    2024-11-15 227
  • OCR 创新引领光学字符识别新境界 Zerox 探索

      在数字化信息飞速发展的当今时代,光学字符识别,OCR,技术成为了连接纸质与数字世界的重要桥梁,它能够将各种文档中的文字快速准确地转换为可编辑的电子文本,极大地提高了工作效率和信息利用价值,在众多OCR工具中,ZeroxOCR以其独特的特性和优势脱颖而出,为用户带来了全新的体验和更高的效率,本文将深入...

    2024-11-15 206
  • 提升大规模并行训练效率的方法 LLM

      一、结论写在前面论文来自阿里巴巴,论文标题,BoostingLarge,scaleParallelTrainingEfficiencywithC4,ACommunication,DrivenApproach论文链接,​​https,arxiv.org,pdf,2406.04594​​LLMs的出现促...

    2024-11-15 372

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息