Intègre des evals par PR dans GitHub Actions, choisis des seuils qui résistent à la flakiness, et décide quand une gate appartient à main.
Fait partie de : Évaluation des LLM