包含"KV"标签的文章

玩具模型

推理的 Cache 优化等 PagedAttention 计算和 Attention vAttention LLM KV

最近，SGLang引起了广泛关注，出现了许多，SGLang吊打vLLM和TRT，LLM，的言论，不得不说，SGLang确实是一项非常出色的工作，与此同时，vLLM的性能问题和TRT，LLM的易用性问题也广受诟病，但是在实际应用中，我们仍然需要保持理性，比如，已经使用了LMDeploy或TRT，LLM...

2024-11-15 335
科技

KVSharer 共享 KV Cache 基于不相似性实现跨层

一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer，与之前常见的层内共享不同，KVSharer主要关注跨层共享，并且是整个层的共享，对应的论文，[2410.18517]KVSharer，EfficientInferenceviaLayer，WiseDissimilarKVCach...

2024-11-14 388

共1页 2条

联系我们

QQ号：***

微信号：***

工作日：9:30-18:30，节假日休息