Conecte evals por PR no GitHub Actions, defina thresholds que sobrevivem à flakiness e decida quando um gate pertence à main.
Parte de: Avaliação de LLMs