Chapter 16: 이미지·영상·로보틱스의 강화학습 — 2025년의 지형도

이 장의 역할

DDPO/D3PO는 시작에 불과했다. 2025년, 디퓨전/영상 생성 모델의 RL은 폭발적으로 성장했다. RL+시각 생성 교차 논문 수: 2019–2020년 13편 → 2024–2025년 91편 → 2025년 상반기만 77편. 이 장에서는 현재의 지형도를 그린다.

세 갈래의 접근법

graph TB
    subgraph map["이미지·영상 생성 RL 지도"]
        direction TB
        subgraph pref["1. 선호 기반 (오프라인 DPO 변형)"]
            direction LR
            P1["Diffusion-DPO"] --> P2["Diffusion-SDPO<br/>(Ch14)"] --> P3["DenseDPO"]
            P1 --> P4["DiffusionKTO"] --> P5["Pick-a-Pic 학습"]
        end
        subgraph pg["2. 정책 그래디언트 (온라인 RL)"]
            direction LR
            G1["DDPO<br/>(Ch15)"] --> G2["DPOK"] --> G3["ReFL"] --> G4["AlignProp"] --> G5["B²-DiffuRL"]
        end
        subgraph grpo["3. GRPO 기반 (2025년 — 통합 프레임워크)"]
            direction LR
            R1["DanceGRPO"] --> R2["FlowGRPO"] --> R3["T2I-R1"] --> R4["Identity-GRPO"]
        end
    end

    style pref fill:#e8f4f8,stroke:#2196F3
    style pg fill:#fff3e0,stroke:#FF9800
    style grpo fill:#e8f5e9,stroke:#4CAF50

1. 선호 기반: 쌍비교 데이터, 오프라인, 안정적이지만 탐색 제한 2. 정책 그래디언트: 보상 모델 필요, 온라인 생성, 미분불가 보상 처리 가능 3. GRPO 기반: LLM의 GRPO를 시각 생성에 직접 적용, 통합 아키텍처

DanceGRPO — GRPO가 시각 생성을 만났을 때

LLM 세계에서 GRPO가 PPO를 대체한 것처럼, 시각 생성에서도 같은 일이 벌어졌다. DanceGRPO (Xue et al., 2025)는 GRPO를 시각 생성에 적용한 최초의 통합 프레임워크다.

DanceGRPO의 범위:
2개 생성 패러다임: 디퓨전 모델 + Rectified Flow
3개 태스크: T2I (텍스트→이미지) + T2V (텍스트→영상) + I2V (이미지→영상)
4개 파운데이션 모델: Stable Diffusion, FLUX, HunyuanVideo, SkyReels-I2V
5개 보상 모델: 미학, 텍스트-이미지 정합, 영상 모션 품질, 시각 품질, 이진 보상

핵심 기술:
디퓨전/Rectified Flow의 샘플링 과정을 MDP로 재정의
→ 각 디노이징 스텝 = 상태-행동 쌍
→ GRPO의 그룹 상대 비교가 타임스텝 단위로 작동
→ 프롬프트당 G개 이미지/영상 생성 → 보상 → 정규화 → 업데이트

성과:
Stable Diffusion: HPS 0.239 → 0.365 (+53%)
HunyuanVideo-T2I: HPS 0.23 → 0.33 (+43%)
영상 모션 품질: 181% 향상
기존 방법(DDPO, DPOK) 대비 최대 181% 벤치마크 향상

왜 GRPO가 이전 방법들보다 안정적인가:

DDPO/DPOK의 문제:
→ 프롬프트 세트가 크고 다양해지면 최적화가 불안정
→ 대규모 학습에서 붕괴

GRPO의 장점:
→ 그룹 내 정규화가 배치 간 보상 스케일 차이를 자동 흡수
→ PPO의 클리핑과 유사한 안정성 보장
→ 가치 모델 불필요 → 메모리 효율
→ 이진 보상(binary feedback)에서도 학습 가능

T2I-R1 — 시각 생성에서의 “사고 과정”

LLM의 o1/R1 모델이 "생각한 다음 답한다"면, T2I-R1 (Jiang et al., 2025)은 "생각한 다음 그린다"를 시도한다.

BiCoT-GRPO:
2단계 Chain-of-Thought를 시각 생성에 도입
1단계: 시맨틱 수준 CoT — 프롬프트를 분석하고 구성 계획을 세운다
2단계: 토큰 수준 CoT — 계획에 따라 이미지 토큰을 생성한다
두 단계를 GRPO 루프 안에서 동시 최적화

결과: FLUX.1을 능가하는 벤치마크 성능
→ 단순 "보상 최적화"를 넘어 "추론 + 생성"의 결합

영상 생성의 RL — 시간 차원이라는 새로운 도전

이미지에서 영상으로 넘어가면 보상 설계가 핵심 난제가 된다.

이미지 보상: 한 장의 이미지를 평가 → 단일 스칼라
영상 보상: 여러 프레임 + 시간 축을 평가 → ?

영상에서 평가해야 할 차원들:

    1. 시각 품질 (Visual Quality): 각 프레임이 선명한가?
    1. 모션 품질 (Motion Quality): 움직임이 자연스러운가? 떨림은 없는가?
    1. 텍스트-영상 정합 (Text-Video Alignment): 프롬프트와 일치하는가?
    1. 시간 일관성 (Temporal Consistency): 프레임 간 연속성이 유지되는가?
    1. 정체성 보존 (Identity Preservation): 인물의 얼굴이 일관적인가?

→ Ch7의 다차원 보상 + 파레토 프론티어가 여기서 다시 등장한다

Identity-GRPO — 다중 인물 영상의 정체성 보존

영상 생성에서 가장 까다로운 문제 중 하나: 여러 사람이 등장할 때 얼굴이 뒤바뀌는 현상.

문제:
프롬프트: “두 사람이 춤을 추는데 옷은 다르다”
기존 모델: 전체 구성은 맞추지만, 얼굴 특징이 뒤바뀜
→ 모션 코히어런스와 정체성 보존 사이의 트레이드오프

Identity-GRPO의 접근:
정체성 보존을 위한 세밀한 보상 모델 설계
→ 텍스트 기반 보상(HPS 등)은 정체성을 제대로 포착 못함
→ 얼굴 인식 기반 보상 + 모션 품질 보상의 분리
GRPO로 두 보상을 동시 최적화

희소 보상 문제의 디퓨전 버전 — B²-DiffuRL

Ch13에서 LLM의 희소 보상 문제를 다뤘다. 디퓨전에서도 동일한 문제가 있다.

문제:
디퓨전 RL에서 보상은 최종 생성 이미지에만 주어진다 (에피소드 끝)
→ 50스텝 디노이징 중 어느 스텝이 좋은 결과에 기여했는지 알 수 없다
→ 이것은 RL의 고전적 “크레딧 할당(credit assignment)” 문제

B²-DiffuRL (Hu et al., 2025, CVPR):
두 가지 전략으로 해결:

    1. Backward Progressive Training: 마지막 스텝부터 거꾸로 학습
      → 마지막 스텝은 최종 이미지와 가장 가까워서 보상 시그널이 명확
      → 점진적으로 앞 스텝으로 확장
    1. Branch-based Sampling: 중간 스텝에서 분기하여 여러 완성본 생성
      → 중간 스텝의 기여도를 분기 결과의 보상 차이로 추정

→ Ch15에서 "노이즈는 탐색, μ_θ는 학습"이라 했는데,
B²-DiffuRL은 "어느 μ_θ 판단이 좋았는가"를 역추적하는 방법

Rectified Flow + RL — ODE 기반 모델도 RL이 가능해지다

기존 제약 (Ch15, 부록 A):
DDPO는 확률적(SDE) 샘플러에서만 작동
→ 각 스텝이 가우시안이어야 log p 계산 가능
→ 결정론적(ODE) 샘플러에서는 불가능

DanceGRPO의 돌파:
Rectified Flow(ODE 기반)를 SDE로 재해석
→ 학습 시에만 노이즈를 주입하여 확률적 궤적 생성
→ 추론 시에는 원래의 결정론적 샘플링 유지
→ FLUX 같은 최신 ODE 기반 모델에도 GRPO 적용 가능

이것은 LLM의 on-policy 데이터 생성과 동형:
학습할 때만 탐색(노이즈)을 켜고, 추론할 때는 끈다

로보틱스와 자율주행 — 같은 도구, 다른 전장

Part III 서두에서 디퓨전 모델이 로보틱스/자율주행의 정책으로 부상한 이유를 다뤘다. 이제 이 영역에서 RL이 어떻게 적용되는지를 구체적으로 보자.

로보틱스의 Diffusion Policy + RL:

기본: Diffusion Policy (Chi et al., 2023)
→ 행동 클로닝으로 학습한 디퓨전 정책
→ 다중 모드 행동 분포를 자연스럽게 표현
→ 문제: 시연(demonstration) 데이터의 분포 밖에서 실패

RL 보강:
→ 시뮬레이터에서 보상 기반 미세 조정
→ 보상 = 태스크 성공(물건 집기, 목표 도달) + 안전 제약(충돌 회피)
→ Ch15의 "노이즈는 탐색, μ_θ는 학습"과 동일한 구조:
디퓨전 정책의 노이즈가 행동 공간을 탐색하고,
보상이 좋은 궤적의 디노이징 판단을 강화

실시간 제약:
→ 로봇은 수십 Hz로 행동을 결정해야 한다
→ 50스텝 디노이징은 너무 느리다
→ OneDP: 증류로 1스텝 생성 (1.5Hz → 62Hz)
→ 이것은 Ch10의 "RL은 적은 파라미터만 바꾼다"와 연결:
증류된 1스텝 모델도 원본의 다중 모드 분포를 보존

자율주행의 Diffusion Planner + RL:

기본: DiffusionDrive (CVPR 2025 Highlight)
→ 절단된 디퓨전 정책 (앵커 기반)
→ 각 앵커 = 하나의 주행 의도 (직진, 좌회전, 차선 변경…)
→ 앵커에서 시작 → 짧은 디노이징 → 구체적 궤적 생성
→ 10배 빠른 추론, nuPlan SOTA

RL 보강 (DiffusionDriveV2):
→ GRPO를 자율주행 디퓨전에 직접 적용
→ 각 앵커별로 G개 궤적 생성 → 보상으로 순위 → 정규화 → 업데이트

핵심 설계 결정:
“다른 앵커의 궤적끼리 비교하면 안 된다.”
→ 좌회전 궤적과 직진 궤적은 다른 의도(모드)이므로
같은 그룹에 넣으면 모드 붕괴가 발생
→ 앵커 내부에서만 GRPO 그룹을 구성

이것은 Ch7(다차원 보상)과 연결:
안전성 보상 + 효율성 보상 + 승차감 보상
→ 파레토 프론티어 위에서 주행 스타일 선택

행동 클로닝의 한계를 RL이 돌파하는 패턴:
IL(모방 학습)은 인간 운전 데이터의 양(positive) 모드만 학습
RL은 음(negative) 모드를 억제하고 탐색으로 인간을 넘어설 수 있다
→ Ch1에서 배운 "SFT + 음성 예제 = RL"이 자율주행에서 그대로 재현

왜 이것이 이 교재의 독자에게 중요한가:

이 교재의 독자가 DPO/GRPO를 배우는 이유는
"내 LLM을 정렬하고 싶어서"만이 아닐 수 있다.

로보틱스 엔지니어: “시연 데이터만으로 부족하다. 디퓨전 정책에 RL을 붙이고 싶다.”
자율주행 연구자: “행동 클로닝 너머를 가고 싶다. GRPO가 쓸 만한가?”
멀티모달 연구자: “VLA(Vision-Language-Action) 모델을 정렬하고 싶다.”

모든 경우에 Part I–II의 도구(마진, 레퍼런스, 희소 보상, 스펙트럼/시그널)가
동일하게 적용된다. 도메인이 달라지면 “로그확률을 어떻게 구하는가”(Ch14)와
“보상을 어떻게 설계하는가”(Ch16 보상 모델 진화)만 바뀐다.

보상 모델의 진화 — 무엇으로 "좋은 이미지"를 판단하는가

1세대: CLIP Score — 텍스트-이미지 유사도
장점: 간단, 빠름
한계: "아름다운 이미지"와 "프롬프트에 맞는 이미지"를 구분 못함

2세대: 인간 선호 점수 (HPS, ImageReward, PickScore)
학습 데이터: 인간의 쌍비교 선호
장점: 미학, 품질, 정합성을 종합 반영
한계: 여전히 스칼라 하나

3세대: 다차원 보상 (VideoAlign 등)
차원 분리: 미학, 모션, 정합성, 안전성을 별도 점수
→ Ch7의 다차원 보상 + Ch8의 ArmoRM과 같은 구조
→ 영상 생성에서 특히 중요: 시각 품질↑ + 모션 품질↑을 동시에 못 하면
어느 쪽을 우선할지 결정해야 하니까

4세대 (emerging): LLM-as-Judge for 시각 생성
GPT-4V, Gemini 등이 이미지/영상을 직접 판정
→ JoyCaption 실전기에서 본 것과 같은 구조
→ 비용이 높지만 다차원 판정이 자연스럽게 가능

시각화 계획

이 장이 교재 전체에서 하는 일

Part I에서 해부한 DPO의 요소들이 디퓨전/영상에서 어떻게 변형되는지 종합:

Ch2 (선호 쌍) → 이미지 쌍비교(Pick-a-Pic), 영상에서는 모션 품질 쌍비교
Ch4 (길이 편향) → 디테일/매끈함 편향 (Ch14)
Ch5 (레퍼런스) → 디퓨전 레퍼런스 모델 = 학습 전 모델 (LoRA 유사)
Ch6 (BT 모델) → 시각 생성에서는 BT보다 연속 보상이 더 자연스러움
Ch7 (다차원 보상) → 영상의 5축 보상이 정확히 이 구조
Ch9 (스펙트럼/시그널) → 프리트레인의 서포트 없이는 RL이 안 된다
→ T2I-R1이 CoT로 서포트를 넓히려는 시도
Ch13 (GRPO) → DanceGRPO로 시각 생성에 직접 이식
Ch13 (희소 보상) → B²-DiffuRL의 크레딧 할당 문제와 동형

다음 장으로의 질문

이미지, 영상, 로보틱스, 자율주행 — 출력 공간을 연속으로 확장했다. 하지만 이 모든 것은 여전히 "한 번의 입력에 한 번의 출력"이었다. LLM이 도구를 호출하고, 환경을 관찰하고, 여러 스텝에 걸쳐 업무를 처리하는 "에이전틱 AI"에서는 어떻게 되는가? 그것이야말로 RL의 원래 문제가 아닌가?