Post-Training: DPO, GRPO & RL per LLM0%
0%
2 nuovi percorsi
Mastery chapter

Post-Training: DPO, GRPO & RL per LLM

0%

Scegli l'algoritmo di post-training giusto -- preference optimization, reasoning RL e agent RL -- senza annegare nei paper di ricerca.

Parte di: AI engineering: le fondamenta

6 moduli·~17 min