包含"MiniCache"标签的文章

  • 的最新工作 PyramidInfer KV Cache 种优化 LLM 和 MiniCache 6 等

      一、背景在LLM推理中,常常会采用KVCache来缓存之前Token的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟,然而,KVCache的大小与序列长度成正比,在处理长序列时会面临极大的挑战,尤其当前许多模型开始支持几百K甚至几M的序列长度,进一步凸显了KVCache的问题,因此很多研究...

    2024-11-15 867

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息