생성모델의 강화학습 — DPO에서 GRPO까지

  1. 생성모델의 강화학습 — DPO에서 GRPO까지
  2. Part I: DPO 이해와 해부
  3. 02-선호쌍의조건
  4. 03-로그확률
  5. 04-길이편향
  6. 05-레퍼런스모델
  7. 06-브래들리테리모델
  8. 07-다차원보상
  9. Part II: 이론과 계보 — DPO에서 GRPO까지 (Ch 8–13)
  10. 09-스펙트럼과시그널
  11. 10-RL의작동조건
  12. 11-온라인과오프라인
  13. 12-실전사례
  14. 13-GRPO와RLVR
  15. Part III: 응용 — 이미지·영상·로보틱스·에이전틱 AI
  16. 15-DDPO
  17. 16-이미지-영상-로보틱스
  18. 17-에이전트의강화학습
  19. 부록