Smetti di controllare gli output a sentimento. Costruisci un eval (valutazione) che gira davvero — golden dataset, scorer deterministico, judge LLM — e leggi il risultato da ingegnere.
Parte di: Valutazione degli LLM