Post-Training: DPO, GRPO & RL für LLMs0%
0%
2 neue Pfade
Meisterschaftskurs

Post-Training: DPO, GRPO & RL für LLMs

0%

Wähle den richtigen Post-Training-Algorithmus – Preference Optimization, Reasoning RL und Agent RL – ohne in Research-Papers zu ertrinken.

Teil von: KI-Engineering-Grundlagen

6 Module·~17 Min.