Stop met outputs op gevoel beoordelen. Bouw een uitvoerbare eval — golden dataset, deterministische scorer, LLM-judge — en lees het resultaat als een engineer.
Onderdeel van: LLM-evaluatie