包含"SnapKV"标签的文章

其他百货

的最新工作 PyramidInfer KV Cache 种优化 LLM 和 MiniCache 6 等

一、背景在LLM推理中，常常会采用KVCache来缓存之前Token的中间结果，以显著减少重复计算，从而降低自回归生成中的延迟，然而，KVCache的大小与序列长度成正比，在处理长序列时会面临极大的挑战，尤其当前许多模型开始支持几百K甚至几M的序列长度，进一步凸显了KVCache的问题，因此很多研究...

2024-11-15 869

共1页 1条

联系我们

QQ号：***

微信号：***

工作日：9:30-18:30，节假日休息