Verdrahte Per-PR-Evals mit GitHub Actions, wähle Schwellenwerte, die Flakiness überstehen, und entscheide, wann ein Gate auf main gehört.
Teil von: LLM-Evaluierung