Progetta inferenza LLM più veloce, economica ed efficiente — dalla meccanica della KV cache alle strategie di serving in produzione.
Parte di: AI engineering: le fondamenta