Cablear evals por-PR en GitHub Actions, elegir umbrales que sobreviven al flakiness, y decidir cuándo un gate pertenece en main.
Parte de: Evaluación de LLMs