ChatGPT_第22页_坚曼百货商行

阿里 LLM 针对大规模 HPN 训练的万卡集群

一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案；也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0，不过上述HPN7.0的相关介绍都是基于阿里官网或者之前的公开分享，最近阿里正式公...

2024-11-15 895

饰品装饰

13B和65B等背后的原因是什么大模型参数量都是7B

不知道大家有没有注意到现在大模型百花齐放，但是模型参数大小却非常一致，基本都是7B，13B，65B等，那么，为什么被设计成这么大呢，网络上有很多解释，笔者结合自己的理解，分享其中可能的原因，最直接的就是历史传承，因为最初OpenAI在就是这么干的，然后，Meta借鉴了OpenAI的做法，推出了lla...

2024-11-15 568

玩具模型

微信等提出多模态大语言模型EE 数据高效和计算高效全都要！中科大&amp

论文链接，https，arxiv.org，pdf，2408.11795亮点直击在多模态研究领域，许多研究利用大量图文对进行模态对齐学习，将大型语言模型，LLMs，转变为多模态LLMs，并在各种视觉语言任务中表现出色，现有的方法主要分为两类，基于自注意力的方法和基于交叉注意力的方法，虽然基于自注意力的...

2024-11-15 156

玩具模型

推理的 Cache 优化等 PagedAttention 计算和 Attention vAttention LLM KV

最近，SGLang引起了广泛关注，出现了许多，SGLang吊打vLLM和TRT，LLM，的言论，不得不说，SGLang确实是一项非常出色的工作，与此同时，vLLM的性能问题和TRT，LLM的易用性问题也广受诟病，但是在实际应用中，我们仍然需要保持理性，比如，已经使用了LMDeploy或TRT，LLM...

2024-11-15 335

生活资讯

普林斯顿大学提出首个基于MoE的稀疏时序预测大模型参数量扩展到2.4billion

今天给大家介绍一篇普林斯顿大学提出的时间序列大模型工作，是首个基于MoE的百万级别参数时间序列大模型，将时序大模型参数量扩展到2.4billion的水平，在多个数据集上取得了显著优于其他时间序列大模型的效果，论文标题，TIME，MOE，BILLION，SCALETIMESERIESFOUNDATIO...

2024-11-15 375

生活科普

聊一聊生成式视角下的实体对齐

引言基于知识图谱嵌入的方法在实体对齐领域取得了巨大成功，本文以生成模型的视角重新解构了目前实体对齐方法的范式，展示了其与生成模型间的相似之处，并从理论上揭示了现有的基于生成对抗网络的方法的局限性，通过引入新的互变分自编码器，Mutual，VAE，作为生成模型，本文构建了一个生成式实体对齐框架，GEE...

2024-11-15 605

其他百货

的最新工作 PyramidInfer KV Cache 种优化 LLM 和 MiniCache 6 等

一、背景在LLM推理中，常常会采用KVCache来缓存之前Token的中间结果，以显著减少重复计算，从而降低自回归生成中的延迟，然而，KVCache的大小与序列长度成正比，在处理长序列时会面临极大的挑战，尤其当前许多模型开始支持几百K甚至几M的序列长度，进一步凸显了KVCache的问题，因此很多研究...

2024-11-15 869

生活资讯

MoE 为什么最新的LLM使用混合专家架构

本文详细介绍了混合专家，MoE，架构，该架构通过混合或融合不同的，专家，模型共同解决特定的问题，专业化的必要性医院有很多具有不同专长的专家和医生，他们擅长解决各自领域内的医疗难题，外科医生、心脏病专家、儿科医生等各类专家紧密合作，为患者提供了全面而个性化的医疗护理服务，同样，人们也可以将这一合作模式...

2024-11-15 871

生活科普

数量即力量！腾讯揭秘 Agent数量越多大语言模型效果越好

来自腾讯的研究者们做了一个关于agent的scalingproperty，可拓展性，的工作，发现，通过简单的采样投票，大语言模型，LLM，的性能，会随着实例化agent数量的增加而增强，其第一次在广泛的场景下验证了该现象的普遍性，与其他复杂方法的正交性，以及研究了其背后的原因，并提出进一步促成sca...

2024-11-15 318

数码资讯

一个意想不到的罪魁祸首 LLM的数数能力有多弱

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读，下面是本期觉得比较有意思的论文，1、LLM的数数能力有多弱，一个意想不到的罪魁祸首2、专家模型的潜在隐患，用户提示被窃取的背后1、LLM的数数能力有多弱，一个意想不到的罪魁祸首你相信大型语言模型，LLM，连简单的数数都可能做不好吗，近期一...

2024-11-15 398

数码资讯

添加2.8%参数完成多项任务基于MoE的通用图像融合模型

图1不同融合任务的源图像对融合结果的主导强度变化研究背景与动机图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上，这种方式通常被用于提取图片重要信息和提高视觉质量，目前，一般的图像融合主要包括多模态、多曝光、多焦图像融合等，融合任务表现出不同的融合机制，多曝光图像融合，M...

2024-11-15 565

包包服装

HybridLLM LLM 混合模型推理成本的新思路 RouterLLM 等优化

一、背景本文中我们继续介绍一种LLM推理优化相关的工作，通过路由的方式组合多个模型；其与投机采样类似，通过多个不同规模和性能的模型组合来降本增效，然而又有本质的区别，投机采样在一个Query内会反复调用大小模型，而路由方式在调用之前已经确定好需要调用哪个模型，直到调用结束，目前常见有两种路由的范式，...

2024-11-15 522

头条

是如何估计与分析模型计算量的 OpenAI

今天看到OpenAI前些年发布的一个模型计算量的分析，感觉很有价值，有需求的人童鞋可以看一下，内容如下，自2012年以来，最大规模AI训练运行中使用的计算量呈指数级增长，翻倍时间为3.4个月，相比之下，摩尔定律的翻倍期为2年，自2012年以来，这一指标增长了300，000多倍，2年的翻倍期只能产生7...

2024-11-15 989

百货快讯

#AIGC创新先锋者征文大赛#去哪儿国际酒店AI生成视频实践

1.视频生成挑战与机遇我们首先来看看，国际酒店视频生成所遇到的挑战，随着AIGC技术的发展，我们关注其在实际业务中的应用，我们认识到AIGC已具备生成视频的能力，且我们的业务对此有相应的需求，因此，我们首先确定了使用AIGC生成视频的场景，接下来，我们考虑如何将视频制作工程化，并确保视频质量，回到视...

2024-11-15 468

科技

点滴成就创造未来无限可能

回顾今年，来自海内外的开发者们将Google技术创新融入实际应用，面向全球舞台展示着他们卓越的创造力与实践能力，在海外市场中探索新的可能性与机遇，这些来自不同背景的故事经历和创意作品，在多元的出海和开发环境中激发了更多开发者的内在驱动力，开发者们通过AI技术，助力日常生活和工作变得更加便捷与高效，他...

2024-11-15 801

包含"ChatGPT"标签的文章