Engenharia de inferência LLM mais rápida, barata e eficiente — da mecânica de KV-cache a estratégias de serving em produção.
Parte de: Fundamentos de Engenharia de IA