大模型_第22页_坚曼百货商行

推理的 Cache 优化等 PagedAttention 计算和 Attention vAttention LLM KV

最近，SGLang引起了广泛关注，出现了许多，SGLang吊打vLLM和TRT，LLM，的言论，不得不说，SGLang确实是一项非常出色的工作，与此同时，vLLM的性能问题和TRT，LLM的易用性问题也广受诟病，但是在实际应用中，我们仍然需要保持理性，比如，已经使用了LMDeploy或TRT，LLM...

2024-11-15 335

生活资讯

普林斯顿大学提出首个基于MoE的稀疏时序预测大模型参数量扩展到2.4billion

今天给大家介绍一篇普林斯顿大学提出的时间序列大模型工作，是首个基于MoE的百万级别参数时间序列大模型，将时序大模型参数量扩展到2.4billion的水平，在多个数据集上取得了显著优于其他时间序列大模型的效果，论文标题，TIME，MOE，BILLION，SCALETIMESERIESFOUNDATIO...

2024-11-15 375

生活科普

聊一聊生成式视角下的实体对齐

引言基于知识图谱嵌入的方法在实体对齐领域取得了巨大成功，本文以生成模型的视角重新解构了目前实体对齐方法的范式，展示了其与生成模型间的相似之处，并从理论上揭示了现有的基于生成对抗网络的方法的局限性，通过引入新的互变分自编码器，Mutual，VAE，作为生成模型，本文构建了一个生成式实体对齐框架，GEE...

2024-11-15 604

其他百货

的最新工作 PyramidInfer KV Cache 种优化 LLM 和 MiniCache 6 等

一、背景在LLM推理中，常常会采用KVCache来缓存之前Token的中间结果，以显著减少重复计算，从而降低自回归生成中的延迟，然而，KVCache的大小与序列长度成正比，在处理长序列时会面临极大的挑战，尤其当前许多模型开始支持几百K甚至几M的序列长度，进一步凸显了KVCache的问题，因此很多研究...

2024-11-15 869

生活资讯

MoE 为什么最新的LLM使用混合专家架构

本文详细介绍了混合专家，MoE，架构，该架构通过混合或融合不同的，专家，模型共同解决特定的问题，专业化的必要性医院有很多具有不同专长的专家和医生，他们擅长解决各自领域内的医疗难题，外科医生、心脏病专家、儿科医生等各类专家紧密合作，为患者提供了全面而个性化的医疗护理服务，同样，人们也可以将这一合作模式...

2024-11-15 871

生活科普

数量即力量！腾讯揭秘 Agent数量越多大语言模型效果越好

来自腾讯的研究者们做了一个关于agent的scalingproperty，可拓展性，的工作，发现，通过简单的采样投票，大语言模型，LLM，的性能，会随着实例化agent数量的增加而增强，其第一次在广泛的场景下验证了该现象的普遍性，与其他复杂方法的正交性，以及研究了其背后的原因，并提出进一步促成sca...

2024-11-15 317

数码资讯

一个意想不到的罪魁祸首 LLM的数数能力有多弱

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读，下面是本期觉得比较有意思的论文，1、LLM的数数能力有多弱，一个意想不到的罪魁祸首2、专家模型的潜在隐患，用户提示被窃取的背后1、LLM的数数能力有多弱，一个意想不到的罪魁祸首你相信大型语言模型，LLM，连简单的数数都可能做不好吗，近期一...

2024-11-15 398

数码资讯

添加2.8%参数完成多项任务基于MoE的通用图像融合模型

图1不同融合任务的源图像对融合结果的主导强度变化研究背景与动机图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上，这种方式通常被用于提取图片重要信息和提高视觉质量，目前，一般的图像融合主要包括多模态、多曝光、多焦图像融合等，融合任务表现出不同的融合机制，多曝光图像融合，M...

2024-11-15 565

包包服装

HybridLLM LLM 混合模型推理成本的新思路 RouterLLM 等优化

一、背景本文中我们继续介绍一种LLM推理优化相关的工作，通过路由的方式组合多个模型；其与投机采样类似，通过多个不同规模和性能的模型组合来降本增效，然而又有本质的区别，投机采样在一个Query内会反复调用大小模型，而路由方式在调用之前已经确定好需要调用哪个模型，直到调用结束，目前常见有两种路由的范式，...

2024-11-15 522

头条

是如何估计与分析模型计算量的 OpenAI

今天看到OpenAI前些年发布的一个模型计算量的分析，感觉很有价值，有需求的人童鞋可以看一下，内容如下，自2012年以来，最大规模AI训练运行中使用的计算量呈指数级增长，翻倍时间为3.4个月，相比之下，摩尔定律的翻倍期为2年，自2012年以来，这一指标增长了300，000多倍，2年的翻倍期只能产生7...

2024-11-15 988

百货快讯

#AIGC创新先锋者征文大赛#去哪儿国际酒店AI生成视频实践

1.视频生成挑战与机遇我们首先来看看，国际酒店视频生成所遇到的挑战，随着AIGC技术的发展，我们关注其在实际业务中的应用，我们认识到AIGC已具备生成视频的能力，且我们的业务对此有相应的需求，因此，我们首先确定了使用AIGC生成视频的场景，接下来，我们考虑如何将视频制作工程化，并确保视频质量，回到视...

2024-11-15 468

科技

点滴成就创造未来无限可能

回顾今年，来自海内外的开发者们将Google技术创新融入实际应用，面向全球舞台展示着他们卓越的创造力与实践能力，在海外市场中探索新的可能性与机遇，这些来自不同背景的故事经历和创意作品，在多元的出海和开发环境中激发了更多开发者的内在驱动力，开发者们通过AI技术，助力日常生活和工作变得更加便捷与高效，他...

2024-11-15 801

科技

难教 AIGC卷不了教师育会

大模型的风想要挂向教育行业的深处，还得再等上一些时日，ChatGPT在市场上火得一塌糊涂，大有颠覆传统教育行业的趋势，而体制内却冷静得像是不知道ChatGPT的存在，你知道现在很火的ChatGPT吗，——，智能相对论，在与身边几位公立学校的教师朋友交流ChatGPT、大模型、AI教育等话题后发现，体...

2024-11-15 107

玩具模型

学习感悟 AIGC

生成式AI的学习之旅充满了挑战与惊喜，从技术原理的掌握到实际应用的探索，每一步都让我对这项技术的潜力有了更深的理解，展望未来，我相信生成式AI将在更多领域实现突破，推动人类社会迈向更智能、创新的未来，作为一名AIGC的学习者，我将在不断深入学习和实践的过程中，继续探索这项技术的无限可能，并为其在现实...

2024-11-15 510

家电数码

从AIGC看大模型供应商

产业链的发展，并不是独立的，而是上下游合作发展，在之前的文章中有说过，对大部分人和企业来说，使用第三方模型是最好的选择，一是因为技术难度低，二是因为资金成本低，同样也就意味着风险比较低，在前几天的文章中大模型与社会分工，产业链与模块化中说过，大模型技术是一个产业链，它并不是一个人或一个公司的...

2024-11-15 136

包含"大模型"标签的文章