목차

생성모델의 강화학습 — DPO에서 GRPO까지
Part I: DPO 이해와 해부
02-선호쌍의조건
03-로그확률
04-길이편향
05-레퍼런스모델
06-브래들리테리모델
07-다차원보상
Part II: 이론과 계보 — DPO에서 GRPO까지 (Ch 8–13)
09-스펙트럼과시그널
10-RL의작동조건
11-온라인과오프라인
12-실전사례
13-GRPO와RLVR
Part III: 응용 — 이미지·영상·로보틱스·에이전틱 AI
15-DDPO
16-이미지-영상-로보틱스
17-에이전트의강화학습
부록

생성모델의 강화학습 — DPO에서 GRPO까지

생성모델의 강화학습 — DPO에서 GRPO까지
Part I: DPO 이해와 해부
02-선호쌍의조건
03-로그확률
04-길이편향
05-레퍼런스모델
06-브래들리테리모델
07-다차원보상
Part II: 이론과 계보 — DPO에서 GRPO까지 (Ch 8–13)
09-스펙트럼과시그널
10-RL의작동조건
11-온라인과오프라인
12-실전사례
13-GRPO와RLVR
Part III: 응용 — 이미지·영상·로보틱스·에이전틱 AI
15-DDPO
16-이미지-영상-로보틱스
17-에이전트의강화학습
부록