ESTRATÉGIAS DE GERENCIAMENTO DE KV CACHE: UM ESTUDO COMPARATIVO DE DESEMPENHO E MEMÓRIA

Autores

  • Ryan F. F. Ribeiro
  • Mirela V. Domiciano
  • Egon L. Muller Junior

Palavras-chave:

Desempenho de inferência, KV Cache, Modelos de Linguagem de Grande Escala, Otimização de memória

Resumo

Este estudo demonstrou de forma conclusiva a importância crítica do gerenciamento de KV Cache para a viabilidade e o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em aplicações conversacionais. A pesquisa comparou sistematicamente três estratégias de cache — sem cache, dinâmico e estático — e quantificou o impacto de cada uma no tempo de geração, no consumo de memória e na vazão de tokens.
Os resultados obtidos evidenciam que a ausência de um mecanismo de cache faz com que o tempo de resposta aumente exponencialmente à medida que o contexto da conversa se expande. Em contrapartida, o uso de cache, tanto dinâmico quanto estático, resultou em uma melhoria de desempenho superior a 10 vezes, mantendo o tempo de geração baixo e estável. A estratégia de cache dinâmico destacou-se como a mais equilibrada, alcançando uma alta vazão de aproximadamente 34 tokens por segundo com um consumo de memória adicional mínimo por inferência. Embora a estratégia de cache estático tenha apresentado uma velocidade similar, seu custo em termos de alocação de memória foi consideravelmente maior e mais volátil, tornando-a menos ideal para ambientes com recursos de memória limitados ou imprevisíveis.
Conclui-se, portanto, que a estratégia de cache dinâmico representa a solução mais robusta e eficiente para a maioria das aplicações de LLMs, oferecendo um excelente equilíbrio entre velocidade e uso de recursos. As descobertas desta pesquisa servem como uma base sólida para o desenvolvimento de sistemas de IA mais otimizados. Para trabalhos futuros, sugere-se a expansão deste estudo para incluir a análise de técnicas mais avançadas, como políticas de evicção de tokens (por exemplo, H2O) e métodos de quantização (como KVQuant), que prometem otimizar ainda mais o uso dememória, permitindo que os LLMs processem contextos ainda mais longos de forma eficiente.

Downloads

Publicado

03.02.2026