Post-Training: DPO, GRPO & RL voor LLMs0%
0%
2 nieuwe paden
Meesterlijkheidscursus

Post-Training: DPO, GRPO & RL voor LLMs

0%

Kies het juiste post-training algoritme -- preference optimization, reasoning RL en agent RL -- zonder te verdrinken in onderzoekspapers.

Onderdeel van: AI Engineering: Grondslagen

6 modules·~17 min