包含"KV"标签的文章
-
推理的 Cache 优化 等 PagedAttention 计算和 Attention vAttention LLM KV
最近,SGLang引起了广泛关注,出现了许多,SGLang吊打vLLM和TRT,LLM,的言论,不得不说,SGLang确实是一项非常出色的工作,与此同时,vLLM的性能问题和TRT,LLM的易用性问题也广受诟病,但是在实际应用中,我们仍然需要保持理性,比如,已经使用了LMDeploy或TRT,LLM...
-
KVSharer 共享 KV Cache 基于不相似性实现跨层
一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer,与之前常见的层内共享不同,KVSharer主要关注跨层共享,并且是整个层的共享,对应的论文,[2410.18517]KVSharer,EfficientInferenceviaLayer,WiseDissimilarKVCach...
共1页 2条