Pare de avaliar outputs na intuição. Monte uma eval executável — dataset golden, scorer determinístico, juiz LLM — e leia o resultado como engenheiro.
Parte de: Avaliação de LLMs