Choisis le bon algorithme de post-training -- optimisation des préférences, RL de raisonnement et RL d'agent -- sans te noyer dans les articles de recherche.
Fait partie de : Fondations de l'ingénierie IA