Crie, execute e visualize suítes de eval de nível frontier com o framework open-source do UK AISI.
Parte de: Avaliação de LLMs