Arrête de vérifier les sorties au feeling. Construis une eval exécutable — dataset doré, scorer déterministe, juge LLM — et lis le résultat comme un ingénieur.
Fait partie de : Évaluation des LLM