包含"KV"标签的文章

  • 推理的 Cache 优化 等 PagedAttention 计算和 Attention vAttention LLM KV

      最近,SGLang引起了广泛关注,出现了许多,SGLang吊打vLLM和TRT,LLM,的言论,不得不说,SGLang确实是一项非常出色的工作,与此同时,vLLM的性能问题和TRT,LLM的易用性问题也广受诟病,但是在实际应用中,我们仍然需要保持理性,比如,已经使用了LMDeploy或TRT,LLM...

    2024-11-15 335
  • KVSharer 共享 KV Cache 基于不相似性实现跨层

      一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer,与之前常见的层内共享不同,KVSharer主要关注跨层共享,并且是整个层的共享,对应的论文,[2410.18517]KVSharer,EfficientInferenceviaLayer,WiseDissimilarKVCach...

    2024-11-14 388

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息