생성모델의 강화학습 — DPO에서 GRPO까지

들어가며

“이 답변이 저 답변보다 낫다.” — 이것은 직관적이고 간단한 판단이다.

강화학습의 출발점은 이처럼 직관적이다. 선호와 비선호. 좋은 답과 나쁜 답. 전문가가 아니어도 수집할 수 있는 데이터. 실제로 DPO(Direct Preference Optimization)는 이 단순한 직관 위에 세워졌고, 코드 4–6줄이면 기존 학습 파이프라인에 붙일 수 있다. 하지만 그 수식을 펼치면 — 여섯 개의 설계 선택이 겹겹이 접혀 있다. 로그는 왜 나오나? 왜 쌍비교인가? 왜 시그모이드인가? 레퍼런스 모델은 왜 필요한가?

이 교재는 DPO의 한 줄 수식으로부터 출발한다. 그 수식을 분해하고, 각 요소가 왜 거기 있는지를 묻는다. 답이 "없으면 안된다"이면 왜 안되는지를 보여주고, "빼도 된다"이면 실제로 빼서 더 나아진 논문을 보여준다. 그 분기 자체가 알고리즘 계보를 그려준다.

LDPO=logσ ⁣(β[logπθ(yw)πref(yw)logπθ(yl)πref(yl)])\mathcal{L}_\text{DPO} = -\log \sigma\!\Big(\beta \cdot \big[\log \frac{\pi_\theta(y_w)}{\pi_\text{ref}(y_w)} - \log \frac{\pi_\theta(y_l)}{\pi_\text{ref}(y_l)}\big]\Big)

이 한 줄에 여섯 개의 설계 선택이 들어 있다. 하지만 먼저 이 수식이 무엇을 하는지 — SFT에서 출발해서 DPO에 도달하는 과정 — 를 이해한 뒤에, 각 요소를 하나씩 의심한다:

# 요소 의문 챕터
수식 전체 SFT에서 DPO까지: 무엇을 하는가? Ch1
ywy_w, yly_l (선호/비선호 쌍) 어떤 쌍이 좋은 쌍인가? 꼭 쌍이어야 하나? Ch2
logπθ\log \pi_\theta (로그확률) 무슨 뜻인가? 어떻게 구하나? 공정한가? Ch3, Ch4
πref\pi_\text{ref} (레퍼런스 모델) 왜 필요한가? 빼면? Ch5
σ\sigma (시그모이드 = Bradley-Terry) 왜 이 함수인가? 다른 건? Ch6
β\beta (온도/제약 강도) 뭘 조절하는가? Ch5 보충
log-\log (최대우도) 이건 바꿀 수 있나? Ch6 보충

각 요소를 하나씩 떼어내서 묻는다:

대상 독자: DPO 논문을 읽었거나 읽으려는 ML 실무자. 전제 지식: 시그모이드(σ\sigma), 로그(log\log), 조건부 확률, 그래디언트의 직관적 의미.


전체 구성: 3부 + 부록

Part I: DPO 이해와 해부 (Ch 1–7)

— 먼저 수식이 무엇을 하는지 이해하고, 그 다음 여섯 각도에서 해부한다

Part II: 이론과 계보 — DPO에서 GRPO까지 (Ch 8–13)

— 해부 결과를 이론으로 엮고, 알고리즘 지도를 그린다

Part III: 응용 — 이미지·영상·로보틱스·에이전틱 AI (Ch 14–17)

— LLM 밖으로 나가면 어떤 요소를 고려해야 하고, 어떻게 적용하는가

부록

— A: 디퓨전 모델 이론 리뷰 (DDPM, DDIM, Euler, Euler-A, DPM-SDE 등) — B: 수학 기호 참조표 — C: LLM ↔ 디퓨전 대응 사전 — D: 알고리즘 족보 다이어그램 — E: REINFORCE에서 DPO로 — 수학적 도출 — F: BM25와 로그오즈 — 검색에서 이미 풀린 문제