包含"MiniCache"标签的文章
-
的最新工作 PyramidInfer KV Cache 种优化 LLM 和 MiniCache 6 等
一、背景在LLM推理中,常常会采用KVCache来缓存之前Token的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟,然而,KVCache的大小与序列长度成正比,在处理长序列时会面临极大的挑战,尤其当前许多模型开始支持几百K甚至几M的序列长度,进一步凸显了KVCache的问题,因此很多研究...
共1页 1条