Chapter 13: GRPO와 RLVR — 이 교재가 향하던 곳
의문
Ch1에서 DPO로 출발했다. Ch3–7에서 해부하고, Ch8에서 변형들의 지도를 그리고, Ch9–10에서 RL의 이론적 조건을 배우고, Ch11에서 온라인과 오프라인 사이의 현실적 딜레마를 봤고, 인터루드에서 그 고통을 실전으로 체감했다.
모든 길이 하나의 질문으로 수렴한다:
"정답이 있는 도메인이라면,
인간 라벨도 보상 모델도 데이터셋 큐레이션도 없이,
검증기 하나로 on-policy RL을 돌릴 수 있지 않나?"
→ DeepSeek-R1이 이것을 증명했다.
→ 그 알고리즘이 GRPO이고, 그 패러다임이 RLVR이다.
배경: DPO의 약점이 드러나다
Part I–II에서 축적된 DPO의 구조적 한계:
1. 정적 데이터 → 분포 이동 (Ch11: 학습이 진행되면 데이터가 낡는다)
2. 쌍의 품질에 전적으로 의존 (인터루드: 가비지 인, 가비지 아웃)
3. 탐색(exploration) 불가능 — 알려진 답만 강화할 수 있다 (부록 E: on-policy 루프 제거의 대가)
4. 데이터셋이 일회용 (인터루드: 레퍼런스가 바뀌면 데이터 전체가 무효화)
→ 수학, 코드 같은 "정답이 있는" 도메인에서는:
검증기가 [2]를 해결하고 (자동 품질 평가)
on-policy 생성이 [1][3]을 해결하고 (현재 모델로 생성 + 탐색)
매 배치마다 새 데이터가 [4]를 해결한다 (데이터셋이 매번 갱신)
GRPO: PPO에서 두 모델을 빼다
GRPO(Group Relative Policy Optimization)는 DeepSeek이 제안한 RL 알고리즘이다. PPO에서 **가치 모델(Value Model)**과 **보상 모델(Reward Model)**을 제거했다.
이것이 왜 중요한지를 이해하려면, PPO의 무거움부터 봐야 한다.
PPO가 필요로 하는 것 (RLHF 풀 파이프라인):
1. 정책 모델 (π_θ) — 학습 대상. 응답을 생성한다.
2. 레퍼런스 모델 (π_ref) — KL 제약용. 정책이 너무 멀어지지 않게.
3. 보상 모델 (R) — 응답에 점수를 매긴다. 별도로 학습해야 한다.
4. 가치 모델 (V) — "이 상태에서 앞으로 기대되는 총 보상"을 추정.
어드밴티지 계산에 필요. 역시 별도로 학습해야 한다.
→ 70B 모델 4개를 동시에 메모리에 올려야 한다.
→ 실무적으로 엄청난 GPU 비용.
→ InstructGPT(OpenAI, 2022)가 이 방식을 썼지만,
대부분의 연구실과 회사는 이 비용을 감당할 수 없었다.
→ DPO가 인기를 끈 이유: 이 4개 모델을 2개로 줄였으니까.
graph LR
subgraph ppo["PPO (RLHF 풀 파이프라인)"]
direction LR
P1["π_θ<br/>정책 모델"] ~~~ P2["π_ref<br/>레퍼런스"]
P3["R<br/>보상 모델"] ~~~ P4["V<br/>가치 모델"]
end
subgraph grpo["GRPO"]
direction LR
G1["π_θ<br/>정책 모델"] ~~~ G2["π_ref<br/>레퍼런스"]
G3["✅ 검증기<br/>(규칙 기반)"] ~~~ G4["📊 그룹 통계<br/>(샘플 평균)"]
end
ppo -->|"4개 모델 → 2개 모델 + 규칙"| grpo
style ppo fill:#ffcdd2,stroke:#C62828
style grpo fill:#c8e6c9,stroke:#2E7D32
style P3 fill:#ef9a9a,stroke:#C62828
style P4 fill:#ef9a9a,stroke:#C62828
style G3 fill:#a5d6a7,stroke:#2E7D32
style G4 fill:#a5d6a7,stroke:#2E7D32
GRPO는 다른 방식으로 줄인다:
GRPO가 제거하는 것:
[보상 모델 제거]
PPO: 별도 학습한 보상 모델 R(x, y)이 점수를 매긴다.
GRPO: 검증기(verifier)로 대체한다.
→ 수학: "정답이 42인가?" → 1/0
→ 코드: "테스트를 통과하는가?" → 1/0
→ 보상 모델을 학습할 필요가 없다 — 규칙이 보상이다.
[가치 모델 제거 — GRPO의 핵심 기여]
PPO: "이 상태에서 앞으로 기대되는 보상"을 추정하는 가치 모델 V(s)가 필요.
어드밴티지 = 실제 보상 − V(s) (베이스라인 차감)
→ V(s)를 별도로 학습해야 한다.
GRPO: 가치 모델 대신 "그룹 통계"를 베이스라인으로 쓴다.
같은 프롬프트에 대해 G개의 응답을 생성하고,
이 G개의 보상의 평균과 표준편차를 계산하면,
그것이 곧 베이스라인이다.
왜 이것이 작동하는가:
가치 모델이 추정하려는 것 = "이 프롬프트에서 기대되는 평균 보상"
G개 응답의 평균 보상 = 같은 것의 몬테카를로 추정값
→ 별도 모델을 학습하는 대신, 샘플링으로 직접 추정하는 것.
→ 추정 오차는 G가 클수록 줄어든다 (중심극한정리).
구체적으로 GRPO가 작동하는 과정을 한 프롬프트에 대해 따라가보자:
[GRPO 한 스텝의 전체 흐름]
프롬프트: x = "1부터 100까지의 합은?"
Step 1: 현재 정책 π_θ로 G=8개 응답을 생성
y₁: "5050입니다. 가우스 공식으로..." → 검증기: 정답 ✓ r₁ = 1
y₂: "5050. 1+100=101, 101×50=5050" → 검증기: 정답 ✓ r₂ = 1
y₃: "답은 5050이에요" → 검증기: 정답 ✓ r₃ = 1
y₄: "4950입니다. 1+2+...+99=4950" → 검증기: 오답 ✗ r₄ = 0
y₅: "5050. 등차수열의 합 공식 S=n(n+1)/2..." → 검증기: 정답 ✓ r₅ = 1
y₆: "100×101÷2 = 5050" → 검증기: 정답 ✓ r₆ = 1
y₇: "5500입니다" → 검증기: 오답 ✗ r₇ = 0
y₈: "계산하면 5050이 됩니다. 이는..." → 검증기: 정답 ✓ r₈ = 1
Step 2: 그룹 통계 계산
보상: [1, 1, 1, 0, 1, 1, 0, 1]
평균 μ = 6/8 = 0.75
표준편차 σ = 0.433
Step 3: 정규화된 어드밴티지 계산
Â_i = (r_i − μ) / σ
y₁: Â = (1 − 0.75) / 0.433 = +0.577 → 평균보다 나음 → 강화
y₂: Â = +0.577 → 강화
y₃: Â = +0.577 → 강화
y₄: Â = (0 − 0.75) / 0.433 = −1.732 → 평균보다 나쁨 → 억제
y₅: Â = +0.577 → 강화
y₆: Â = +0.577 → 강화
y₇: Â = −1.732 → 억제
y₈: Â = +0.577 → 강화
Step 4: 정책 그래디언트 업데이트
각 응답에 대해:
그래디언트 ∝ Â_i × ∇_θ log π_θ(y_i | x)
→ 정답 응답(y₁,₂,₃,₅,₆,₈)의 로그확률을 올린다
→ 오답 응답(y₄,₇)의 로그확률을 내린다
→ 얼마나 올리고 내리는지는 어드밴티지의 크기가 결정
Step 5: KL 제약
π_θ가 π_ref에서 너무 멀어지지 않도록 KL 페널티 추가
(Ch5에서 배운 "줄"과 동일한 역할)
왜 "그룹 상대적(Group Relative)"인가:
핵심: 어드밴티지가 절대적이 아니라 상대적이다.
만약 8개 응답 모두 정답이면?
보상: [1, 1, 1, 1, 1, 1, 1, 1]
평균 μ = 1, 표준편차 σ = 0
→ 모든 어드밴티지가 0 → 아무것도 학습하지 않는다.
→ 모두 맞으면 이 프롬프트에서 배울 것이 없다.
만약 8개 응답 모두 오답이면?
보상: [0, 0, 0, 0, 0, 0, 0, 0]
→ 역시 모든 어드밴티지가 0 → 아무것도 학습하지 않는다.
→ Ch10에서 배운 "롤아웃 적정 난이도"와 정확히 대응:
pass@G가 0%이거나 100%이면 시그널이 없다.
30–70% 범위에서 시그널이 최대.
→ GRPO는 자동으로 "적정 난이도"의 프롬프트에서만 학습한다.
쉬운 문제(모두 정답)와 어려운 문제(모두 오답)는 자연스럽게 건너뛴다.
DPO와 GRPO를 나란히 놓으면 차이가 선명해진다:
| 측면 | DPO | GRPO |
|-------------------|------------------------------|------------------------------|
| 데이터 생성 | 사전에 만들어둔 고정 데이터셋 | 매 배치마다 현재 모델이 생성 |
| 비교 구조 | 쌍비교 (y_w vs y_l) | 그룹비교 (G개 중 상대 순위) |
| 보상 출처 | 인간 라벨 또는 보상 모델 | 검증기 (규칙 기반) |
| 베이스라인 | 레퍼런스 모델 (π_ref) | 그룹 평균 (μ) |
| 분포 이동 | 있음 (학습 진행 시) | 없음 (on-policy) |
| 필요 모델 수 | 2 (정책 + 레퍼런스) | 2 (정책 + 레퍼런스) |
| 탐색 능력 | 없음 (고정 데이터) | 있음 (매번 새로 생성) |
| 적용 가능 도메인 | 모든 도메인 | 정답 검증 가능한 도메인 |
| 데이터 큐레이션 | 필수 (6단계 파이프라인) | 불필요 (분포가 곧 큐레이션) |
→ GRPO는 DPO의 모든 구조적 한계를 해결한다.
대가: "정답이 있는 도메인"이라는 전제가 필요하다.
부록 E에서 다뤘던 REINFORCE와의 관계:
REINFORCE: 그래디언트 ∝ r(y) × ∇_θ log π_θ(y)
→ 문제: r(y)의 절대값이 크면 분산이 폭발
→ 해결: 베이스라인 b를 빼서 (r(y) − b) × ∇_θ log π_θ(y)
→ PPO: 가치 모델 V(s)가 베이스라인 역할
GRPO: 그래디언트 ∝ Â_i × ∇_θ log π_θ(y_i)
→ Â_i = (r_i − μ_group) / σ_group
→ μ_group이 베이스라인 역할 (가치 모델 대신)
→ σ_group으로 나눠서 분산을 정규화
→ GRPO는 REINFORCE의 분산 문제를 "더 많이 샘플링"으로 해결한다.
가치 모델을 학습하는 대신, G개를 뽑아서 통계를 직접 구한다.
단순하지만, G가 충분히 크면 가치 모델만큼 좋은 베이스라인이 된다.
GRPO는 이 교재의 "ResNet 모먼트"다
Ch8에서 CNN의 비유를 들었다:
LeNet → AlexNet → VGG → GoogLeNet → ResNet
DPO 계보에서 IPO, KTO, ORPO, SimPO, Rainbow PO는
AlexNet~GoogLeNet에 해당한다:
각각 의미 있는 개선이지만, 근본 패러다임(오프라인 + 정적 데이터)은 같다.
Rainbow PO는 이 변형들을 7축 좌표계로 깔끔하게 정리했지만,
패러다임 자체를 바꾸지는 않았다.
GRPO가 ResNet 모먼트인 이유:
ResNet의 잔차 연결이 해결한 것:
"네트워크를 깊게 쌓으면 그래디언트가 소실/폭발한다"
→ CNN만의 문제가 아니라, 딥러닝 자체의 근본 문제
→ 잔차 연결이라는 단순한 아이디어 하나로 해결
→ 이후 Transformer, ViT, 사실상 모든 딥러닝 아키텍처에 영향
GRPO + RLVR이 해결한 것:
"LLM 정렬에는 인간 라벨과 보상 모델이 필요하다"
→ DPO만의 문제가 아니라, RLHF 패러다임 자체의 근본 전제
→ "그룹 통계로 베이스라인 + 검증기로 보상"이라는 단순한 조합으로 해결
하지만 GRPO를 ResNet 모먼트라고 부를 수 있는 진짜 이유는 알고리즘의 단순함이 아니다. DeepSeek-R1이 보여준 파급효과 때문이다.
DeepSeek-R1이 대단했던 것:
학습한 것: 수학 문제와 코드 문제 (RLVR — 검증기가 있는 도메인)
잘하게 된 것: 수학, 코드, 그리고 일반 추론까지
이것이 왜 놀라운가:
RLVR은 "정답이 있는" 도메인에서만 작동한다고 했다.
수학에서 "42가 맞는가?"로 보상을 준다.
그런데 수학을 잘 풀도록 학습했더니,
법률 추론, 과학 논증, 상식 추론까지 좋아졌다.
"수학 시험 준비를 했는데 국어 성적까지 올랐다."
이런 일이 왜 벌어졌는가?
그 다리 역할을 한 것이 **CoT(Chain of Thought)**다:
GRPO + RLVR이 수학에서 강화하는 것:
보상: "최종 답이 맞는가?" (이진 검증)
하지만 모델이 정답에 도달하려면 중간 과정이 필요하다:
"문제를 이해하고 → 하위 문제로 분해하고 →
각 단계를 계산하고 → 결과를 검증하고 → 답을 제출"
GRPO가 "정답인 응답"을 강화할 때,
그 응답 안에 담긴 CoT 전체가 함께 강화된다:
→ "문제를 분해하는 패턴"이 강화된다
→ "중간 결과를 검증하는 습관"이 강화된다
→ "논리적 단계를 밟는 구조"가 강화된다
이 패턴들은 수학에만 쓰이는 것이 아니다:
"문제를 분해하라" → 법률 추론에서도 동일
"중간 결과를 검증하라" → 과학 논증에서도 동일
"논리적 단계를 밟아라" → 상식 추론에서도 동일
→ CoT가 "도메인 특화 기술"이 아니라 "범용 추론 능력"이었던 것이다.
→ 수학 RLVR은 수학을 가르친 것이 아니라,
"단계적으로 생각하는 법"을 가르친 것이다.
→ CoT가 수학과 일반 추론 사이의 다리(bridge) 역할을 한다.
이것이 ResNet의 파급효과와 대응하는 지점:
ResNet의 파급효과:
해결한 것: 깊은 CNN의 그래디언트 소실
파급된 것: "잔차 연결"이라는 아이디어가
→ NLP (Transformer의 잔차 연결)
→ 음성 (WaveNet)
→ 강화학습 (deep RL networks)
→ 사실상 모든 딥러닝 아키텍처의 기본 구성요소가 됨
핵심: 해결책이 원래 문제(CNN)를 넘어서 보편적이었다
GRPO + RLVR + CoT의 파급효과:
해결한 것: 수학/코드의 검증 가능한 RL
파급된 것:
→ 일반 추론: R1이 수학 RLVR만으로 범용 추론 능력 획득
→ 코딩 에이전트: GRPO로 SWE-bench 성능 향상 (Ch17)
→ 자율주행: DiffusionDriveV2가 GRPO를 주행 정책에 적용 (Ch16)
→ 시각 생성: DanceGRPO가 GRPO를 디퓨전에 적용 (Ch16)
→ 에이전틱 AI: OpenClaw-RL이 GRPO 스타일 PRM을 에이전트에 적용 (Ch17)
→ 로보틱스: Diffusion Policy + RL 조합에 GRPO 아이디어 적용
핵심: "검증 가능한 도메인에서 학습 → CoT 다리 → 범용 능력"이라는
패턴이 원래 도메인(수학)을 넘어서 보편적이었다
공통점:
- 기존 시행착오들을 "하나의 근본 문제"로 환원한다
- 놀라울 정도로 단순한 해법이다
- 해당 분야를 넘어 전체 생태계에 영향을 준다
- 이전의 복잡한 접근들이 불필요해진다 (PPO의 4모델 → GRPO의 2모델)
DeepSeek-R1 이후 벌어진 일:
2025년 1월 R1 공개 이후, 3개월 만에:
1. 오픈소스 재현:
→ Open-Reasoner-Zero, Sky-T1, 다수의 재현 프로젝트
→ 작은 모델(7B~14B)에서도 GRPO+RLVR로 추론 능력 부스트 확인
→ "대형 랩만의 기술"이 아님을 증명
2. 도메인 확장:
→ 의학 MCQA (Med-RLVR), SQL (Databricks), 법률 추론
→ "검증기만 설계할 수 있으면 어디든 적용 가능"
→ 평가기준 기반 보상(Rubrics-as-Rewards)으로 일반 도메인까지 확장 시도
3. 모달리티 확장:
→ T2I-R1: 이미지 생성에 CoT + GRPO
→ DanceGRPO: 영상 생성에 GRPO
→ DiffusionDriveV2: 자율주행에 GRPO
4. 에이전틱 확장:
→ ACT, KARL, OpenClaw-RL — 에이전트 학습에 GRPO 스타일 적용
→ "환경 피드백 = 검증기"라는 일반화
→ "수학 RLVR"이라는 씨앗 하나가, CoT라는 다리를 통해,
사실상 모든 AI 응용 분야로 퍼져나갔다.
이것이 GRPO를 이 교재의 ResNet 모먼트라고 부르는 이유다.
RLVR: "정답이 있다"는 특권
RLVR(Reinforcement Learning with Verifiable Rewards)은 GRPO의 보상을 규칙 기반 검증기로 제공하는 패러다임이다.
검증기의 예:
수학: "정답이 42인가?" → 1 (맞음) / 0 (틀림)
코드: "테스트 케이스를 통과하는가?" → 1 / 0
논리: "형식 규칙을 따르는가?" → 1 / 0
핵심 전제: 정답의 정오를 자동으로 판별할 수 있어야 한다
이 전제가 충족되면 RLVR은 극도로 효율적이다:
- 인간 애노테이션 불필요 → 데이터 무한 생성 가능
- 보상 모델 학습 불필요 → 보상 해킹 위험 없음
- on-policy 생성 → 분포 이동 없음
특히 두 번째 항목이 중요하다. 이 교재 전반에 걸쳐 반복된 리워드 해킹 문제가 여기서 구조적으로 사라진다:
왜 RLVR에서는 리워드 해킹이 (거의) 불가능한가:
Ch5에서 본 sycophancy 해킹:
"아첨하면 보상 모델 점수가 올라간다"
→ RLVR: "1+1=3이라고 아첨해도 검증기는 0점을 준다."
→ 검증기를 속이는 방법은 정답을 맞히는 것뿐이다.
Ch7에서 본 스칼라 축약 해킹:
"한 차원을 극대화하고 다른 차원을 희생"
→ RLVR: 보상이 1/0 이진값이므로 차원 자체가 하나.
→ 정답이거나 오답이거나. 사이에 빈틈이 없다.
Ch11에서 본 형식 해킹:
"마크다운을 도배하면 보상이 올라간다"
→ RLVR: 마크다운이 있든 없든 "42"가 답이면 1, 아니면 0.
→ 형식은 보상에 영향을 주지 않는다.
Ch15에서 볼 CLIP 해킹:
"이미지에 텍스트를 그려넣으면 CLIP 점수가 올라간다"
→ RLVR에 해당하는 것이 없다 — "아름다운 이미지"는
이진 검증이 불가능하므로 RLVR을 적용할 수 없다.
→ 이것이 RLVR의 적용 가능 도메인이 제한되는 근본 이유.
요약:
보상 모델 = 불완전한 대리인 → 빈틈을 찾을 수 있다 = 해킹 가능
검증기 = 정답의 정의 자체 → 빈틈이 없다 = 해킹 불가능
(단, 검증기 자체에 버그가 있으면 해킹 가능 — 이것은 다른 문제)
적용 가능 vs 불가능 — 결정적 경계선
✓ RLVR이 작동하는 도메인:
- 수학 문제 풀이: 정답 존재, 검증 용이
- 코딩: 테스트 케이스 실행으로 검증
- 논리 퍼즐: 규칙 기반 검증
- 의학 MCQA: 정답이 있는 객관식 (Med-RLVR)
- SQL: 실행 결과 비교 (Databricks Text2SQL)
✗ RLVR이 작동하지 않는 도메인:
- 역할극의 자연스러운 대답: "정답"이 없다
- 창작 글쓰기: 좋은 글의 기준이 주관적
- 브랜드 보이스: "우리 회사 톤인가?"를 규칙으로 못 잡는다
- 미묘한 논증: 논리적이되 설득력 있는 글 — 이진 판별 불가
경계 영역 (이론적으로 가능하나 현실적으로 어려운):
- 내용의 모순 검증: "이 문장과 저 문장이 모순인가?"
→ 검증기 설계는 가능하지만, 보상 시그널이 극도로 희소
→ 대부분의 출력이 모순 없음(보상 = 1) → 유의미한 그래디언트가 거의 없음
→ 아주 가끔 모순이 발생할 때만 학습 시그널 → 실질적으로 학습 불가능
희소 보상의 벽: 왜 "가끔 틀림"으로는 안 되는가
이진 보상의 문제:
프롬프트 100개에 대해 각각 8개 출력 생성 (총 800개)
모순이 발생하는 출력: 800개 중 12개 (1.5%)
→ 12개만 보상 = 0, 나머지 788개는 보상 = 1
→ 그룹 내 어드밴티지가 거의 0 → 그래디언트 소실
대조:
수학 문제: 8개 출력 중 평균 3개 정답, 5개 오답
→ 그룹 내 분산이 크다 → 어드밴티지 시그널이 강하다
→ "이 풀이는 맞았고 저 풀이는 틀렸다"를 선명하게 구분
이 문제를 해결하려는 시도들:
- K2V: 복잡한 추론을 검증 가능한 하위 작업으로 분해 → 밀집 보상(dense reward)
- Process Reward Model (PRM): 최종 답이 아니라 중간 단계를 평가
- 평가기준 기반 보상(Rubrics-as-Rewards, RaR): 평가기준을 검증기로 변환 → RLVR의 일반화
반전: RLVR은 모델을 “더 똑똑하게” 만드는가?
최근 연구들이 제기하는 근본적 질문:
“Limit of RLVR” (2025):
실험: 베이스 모델 vs RLVR 학습 모델의 pass@k 비교
pass@1: RLVR 모델 >> 베이스 모델 (RLVR 압승)
pass@8: RLVR ≈ 베이스
pass@256: 베이스 모델 >> RLVR 모델 (베이스 역전!)
해석:
RLVR은 "8번 시도하면 풀 수 있는 문제를 1번에 풀게" 만든다
→ 탐색 효율의 향상 (sampling compression)
→ 새로운 추론 능력의 획득이 아니다
→ 탐색 공간이 좁아져서, 많이 시도하면 오히려 다양성이 줄어든다
“Spurious Rewards” (Shao et al., 2025):
Qwen2.5-Math-7B에 대해:
정답 보상: MATH-500 +29.1%
랜덤 보상: MATH-500 +21.4% ← 랜덤인데도 효과가 있다?!
틀린 라벨: MATH-500 +24.1% ← 오답을 정답이라 해도 학습?!
하지만 Llama3, OLMo2에서는 이 효과가 재현되지 않음
가설: RLVR은 사전학습에서 이미 배운 추론 표현을 "표면으로 끌어올리는" 것
→ 보상의 내용보다 RL 학습 과정 자체가 활성화를 유도
→ (주의: Qwen 특수성 — 학습 데이터 오염 가능성도 제기됨)
이 반전이 교재에서 중요한 이유
Ch1–7에서 해부한 DPO의 각 요소 (쌍, ref, BT, ...)는
"어떤 시그널로 학습하는가"를 다뤘다.
GRPO/RLVR은 정반대 질문을 던진다:
"시그널이 정확하기만 하면, 극도로 단순해도 되는가?"
→ 이진 보상(0/1)만으로 수학 추론이 향상된다
→ 심지어 랜덤 보상으로도 (일부 모델에서) 향상된다
이것은 "학습 시그널의 품질 vs 학습 과정 자체의 힘"이라는
근본적 긴장을 드러낸다.
graph LR
subgraph grpo["GRPO 한 스텝"]
direction TB
X["프롬프트 x"] --> GEN["π_θ로 G=8개 응답 생성"]
GEN --> Y1["y₁ ✓ r=1"]
GEN --> Y2["y₂ ✓ r=1"]
GEN --> Y3["y₃ ✗ r=0"]
GEN --> Y4["y₄ ✓ r=1"]
GEN --> MORE["..."]
Y1 & Y2 & Y3 & Y4 & MORE --> STAT["그룹 통계<br/>μ, σ 계산"]
STAT --> ADV["정규화 어드밴티지<br/>Â = (r − μ)/σ"]
ADV --> UP["정책 업데이트<br/>✓ 강화 / ✗ 억제"]
end
style Y1 fill:#c8e6c9,stroke:#2E7D32
style Y2 fill:#c8e6c9,stroke:#2E7D32
style Y3 fill:#ffcdd2,stroke:#C62828
style Y4 fill:#c8e6c9,stroke:#2E7D32
style UP fill:#e3f2fd,stroke:#1565C0,stroke-width:2px
시각화 계획
- 포지셔닝 맵: x축 = 보상의 검증 가능성 (이진 검증기 ← → 인간 주관), y축 = 계산 비용
- RLVR(좌하), DPO(우하), RLHF/PPO(우상), GRPO+보상모델(중앙)
그래프: 베이스 vs RLVR 모델의 교차점 시각화 - 보상 밀도 비교: 수학(밀집) vs 모순 검증(희소) 보상 분포 히스토그램
- GRPO 작동 원리 다이어그램: 위 mermaid 참조
다음 장으로의 질문
Ch1에서 출발한 여정이 여기서 도착한다. DPO(오프라인, 쌍비교) → 변형들(Ch8) → 이론적 조건(Ch9–10) → 현실의 딜레마(Ch11) → GRPO/RLVR(온라인, 검증 가능 도메인).
하지만 이 모든 건 텍스트, 즉 자기회귀 모델의 이야기였다. 같은 도구들을 이미지, 영상, 로보틱스에 가져가면 어떻게 되는가?