생성모델의 강화학습 — DPO에서 GRPO까지
들어가며
“이 답변이 저 답변보다 낫다.” — 이것은 직관적이고 간단한 판단이다.
강화학습의 출발점은 이처럼 직관적이다. 선호와 비선호. 좋은 답과 나쁜 답. 전문가가 아니어도 수집할 수 있는 데이터. 실제로 DPO(Direct Preference Optimization)는 이 단순한 직관 위에 세워졌고, 코드 4–6줄이면 기존 학습 파이프라인에 붙일 수 있다. 하지만 그 수식을 펼치면 — 여섯 개의 설계 선택이 겹겹이 접혀 있다. 로그는 왜 나오나? 왜 쌍비교인가? 왜 시그모이드인가? 레퍼런스 모델은 왜 필요한가?
이 교재는 DPO의 한 줄 수식으로부터 출발한다. 그 수식을 분해하고, 각 요소가 왜 거기 있는지를 묻는다. 답이 "없으면 안된다"이면 왜 안되는지를 보여주고, "빼도 된다"이면 실제로 빼서 더 나아진 논문을 보여준다. 그 분기 자체가 알고리즘 계보를 그려준다.
이 한 줄에 여섯 개의 설계 선택이 들어 있다. 하지만 먼저 이 수식이 무엇을 하는지 — SFT에서 출발해서 DPO에 도달하는 과정 — 를 이해한 뒤에, 각 요소를 하나씩 의심한다:
| # | 요소 | 의문 | 챕터 |
|---|---|---|---|
| — | 수식 전체 | SFT에서 DPO까지: 무엇을 하는가? | Ch1 |
| ① | 어떤 쌍이 좋은 쌍인가? 꼭 쌍이어야 하나? | Ch2 | |
| ② | 무슨 뜻인가? 어떻게 구하나? 공정한가? | Ch3, Ch4 | |
| ③ | 왜 필요한가? 빼면? | Ch5 | |
| ④ | 왜 이 함수인가? 다른 건? | Ch6 | |
| ⑤ | 뭘 조절하는가? | Ch5 보충 | |
| ⑥ | 이건 바꿀 수 있나? | Ch6 보충 |
각 요소를 하나씩 떼어내서 묻는다:
- 이거 빼면 어떻게 되는가? (필수성 검증)
- 이걸 다른 걸로 바꾸면? (변형 알고리즘 = 계보)
대상 독자: DPO 논문을 읽었거나 읽으려는 ML 실무자.
전제 지식: 시그모이드(
전체 구성: 3부 + 부록
Part I: DPO 이해와 해부 (Ch 1–7)
— 먼저 수식이 무엇을 하는지 이해하고, 그 다음 여섯 각도에서 해부한다
Part II: 이론과 계보 — DPO에서 GRPO까지 (Ch 8–13)
— 해부 결과를 이론으로 엮고, 알고리즘 지도를 그린다
Part III: 응용 — 이미지·영상·로보틱스·에이전틱 AI (Ch 14–17)
— LLM 밖으로 나가면 어떤 요소를 고려해야 하고, 어떻게 적용하는가
부록
— A: 디퓨전 모델 이론 리뷰 (DDPM, DDIM, Euler, Euler-A, DPM-SDE 등) — B: 수학 기호 참조표 — C: LLM ↔ 디퓨전 대응 사전 — D: 알고리즘 족보 다이어그램 — E: REINFORCE에서 DPO로 — 수학적 도출 — F: BM25와 로그오즈 — 검색에서 이미 풀린 문제