Scegli l'algoritmo di post-training giusto -- preference optimization, reasoning RL e agent RL -- senza annegare nei paper di ricerca.
Parte di: AI engineering: le fondamenta