Post-Training : DPO, GRPO et RL pour les LLM0%
0%
2 nouveaux parcours
Cours de maîtrise

Post-Training : DPO, GRPO et RL pour les LLM

0%

Choisis le bon algorithme de post-training -- optimisation des préférences, RL de raisonnement et RL d'agent -- sans te noyer dans les articles de recherche.

Fait partie de : Fondations de l'ingénierie IA

6 modules·~17 min