Deja de revisar outputs por intuición. Construye una eval ejecutable — dataset dorado, scorer determinista, juez LLM — y lee el resultado como un ingeniero.
Parte de: Evaluación de LLMs