Collega gli eval per-PR a GitHub Actions, scegli soglie che reggono alla flakiness e decidi quando un gate ha senso su main.
Parte di: Valutazione degli LLM