10-RL의작동조건 — 생성모델의 강화학습

Chapter 10: RL이 작동하는 조건 — Epiplexity에서 LoRA까지

의문

RL이 스펙트럼에서 시그널을 추출한다면, 그 추출 가능한 양은 어떻게 측정하는가? 그리고 GRPO 같은 알고리즘이 실제로 학습하려면 어떤 조건이 갖춰져야 하는가?

Epiplexity — 학습 가능한 구조의 측정

고전적 정보이론(Shannon entropy, Kolmogorov complexity)은 데이터의 총 불확실성을 측정한다. 하지만 이건 "관찰자의 계산 능력이 무한하다"는 비현실적 가정 위에 서 있다.

이 차이를 직관적으로 이해하기 위해, 물컵에 잉크 한 방울을 떨어뜨려 보자.

[t=0] 잉크 방울이 떨어진 직후.
잉크가 한 점에 응축되어 있다.
→ 패턴은 단순하다. 학습할 것이 거의 없다.
→ Shannon entropy: 낮다 (확실성이 높다)
→ Epiplexity: 낮다 (학습 가능한 구조도 적다)

[t=중간] 잉크가 퍼지면서 복잡한 실타래 모양을 만든다.
소용돌이, 가지치기, 밀도 차이 — 풍부한 패턴.
→ Shannon entropy: 중간
→ Epiplexity: 최대! 지금이 가장 “학습할 것이 많은” 순간이다.
→ 패턴이 있되, 아직 완전히 예측 가능하지는 않다.

[t=∞] 잉크가 완전히 퍼져서 물 전체가 균일하게 착색되었다.
어디를 봐도 같은 색. 패턴이 사라졌다.
→ Shannon entropy: 최대 (완전한 무질서)
→ Epiplexity: 0 (학습할 구조가 없다 — 전부 노이즈)

Shannon entropy는 t=∞에서 최대다. 하지만 우리가 배울 수 있는 건 t=중간에서 가장 많다. 이 차이가 epiplexity의 핵심이다: 총 불확실성이 아니라, 학습 가능한 구조의 양.

Epiplexity (Finzi et al., 2026)는 이 직관을 형식화한다:

데이터의 총 정보 = 학습 가능한 구조(epiplexity) + 학습 불가능한 노이즈(time-bounded entropy)

학습 가능한 구조 (S_T):
→ 모델이 주어진 계산 예산 T 안에 추출할 수 있는 패턴
→ 학습 곡선의 “면적” — 초기 높은 손실에서 최종 낮은 손실까지의 감소분
→ 이 면적이 크면: 데이터에 풍부한 학습 가능 구조가 있다

학습 불가능한 노이즈 (H_T):
→ 아무리 학습해도 예측할 수 없는 잔여 불확실성
→ 의사난수 생성기의 출력처럼: 결정론적이지만 패턴을 못 찾는다

이 프레임워크가 RL에 주는 통찰:

프리트레인/SFT의 역할:
→ 모델의 epiplexity를 최대화 — 학습 가능한 구조를 최대한 흡수
→ 다양한 데이터 믹스처(합의 길)가 epiplexity를 높인다

RL의 역할:
→ 이미 흡수된 구조(스펙트럼) 위에서 특정 시그널을 추출
→ 새로운 구조를 만드는 것이 아니라, 기존 구조의 활성화 패턴을 바꾼다
→ 이것이 “Limit of RLVR” 발견과 정확히 일치한다:
“RLVR은 베이스 모델의 샘플링 효율을 높일 뿐,
새로운 추론 능력을 부여하지 않는다”

롤아웃의 적정 난이도 — GRPO가 학습하려면

GRPO는 같은 프롬프트에 G개의 롤아웃을 생성해서 그룹 내 상대 비교로 학습한다. 이 메커니즘이 작동하려면 롤아웃 사이에 분산이 있어야 한다.

모든 롤아웃이 정답 (pass@G = G/G):
→ 모든 보상 = 1 → 어드밴티지 = 0 → 그래디언트 = 0
→ 문제가 너무 쉽다. 학습 시그널 없음.

모든 롤아웃이 오답 (pass@G = 0/G):
→ 모든 보상 = 0 → 어드밴티지 = 0 → 그래디언트 = 0
→ 문제가 너무 어렵다. 학습 시그널 없음.

일부 정답, 일부 오답 (pass@G ≈ G/2):
→ 보상에 분산 존재 → 어드밴티지가 양/음으로 갈림
→ "이 풀이는 맞았고 저 풀이는 틀렸다"를 구분 가능
→ 학습 시그널이 가장 강하다

최적 지점: pass@k ≈ 30–70% (실무적 발견)

아래 그래프가 이 관계를 보여준다:

이것을 Epiplexity의 언어로 번역하면:

너무 쉬운 문제: epiplexity ≈ 0 (학습할 구조가 남아있지 않다)
너무 어려운 문제: time-bounded entropy만 높다 (구조가 있지만 추출 불가)
적정 난이도: epiplexity가 최대 — 모델이 지금 딱 학습할 수 있는 구조

→ 이것이 커리큘럼 학습의 이론적 근거다:
쉬운 문제 → 중간 → 어려운 순서로 데이터를 제시하면
항상 epiplexity가 높은 영역에서 학습하게 된다

스펙트럼 없이는 RL이 안 된다 — 프리트레인의 중요성

실험적 증거 (Limit of RLVR):\

베이스 모델이 pass@256에서 풀 수 없는 문제는 RLVR 후에도 풀 수 없다\

RL은 기존 서포트(support) 바깥으로 나가지 못한다\

"보이지 않는 줄(invisible leash)"이 존재한다

정보이론적 해석:
프리트레인이 깔아놓은 서포트 = 스펙트럼의 폭
RL이 할 수 있는 것 = 스펙트럼 안에서 특정 주파수를 증폭
RL이 못 하는 것 = 스펙트럼에 없는 주파수를 새로 만들기

실무적 함의:
GRPO/RLVR이 잘 작동하려면:\

프리트레인에서 충분히 다양한 데이터 믹스처 (합의 길)\

SFT에서 다양한 풀이 전략을 경험하게 (모드 다양성)\

그래야 RL 단계에서 "어떤 전략이 더 나은가"를 비교할 수 있다

→ SFT 없이 바로 RL을 돌린 DeepSeek-R1-Zero가
"읽을 수 없는 사고 과정"을 만들어낸 이유가 바로 이것:
스펙트럼에 “읽기 좋은 출력” 모드가 충분히 깔려있지 않았다

RL은 원포인트레슨이다 — 적은 파라미터만 바꾸는 이유

골프 레슨을 생각해보자. 처음 골프를 배울 때는 그립, 스탠스, 백스윙, 다운스윙, 팔로스루 — 모든 것을 익혀야 한다. 하지만 어느 정도 라운딩을 할 수 있는 중급자에게 프로가 해주는 레슨은 다르다. “임팩트 순간에 왼쪽 손목이 꺾이고 있어요. 이것만 고치세요.” 딱 하나의 포인트. 이것이 원포인트레슨이다 — 기본기를 다시 가르치는 것이 아니라, 이미 갖춰진 스윙에서 한 가지 습관만 교정하는 것.

RL이 모델에게 하는 일이 정확히 이것이다:

프리트레인은 수천 시간의 연습이다 — 언어의 기본 구조, 세상의 지식, 다양한 문제 유형을 체득한다. 골프로 치면 그립부터 풀스윙까지 모든 기본기를 익히는 과정.
SFT는 코스 매니지먼트 교육이다 — “질문에는 이런 형식으로 답하라”, "코드는 이렇게 작성하라"는 실전 규범을 배운다. 연습장에서 코스로 나가는 단계.
RL은 원포인트레슨이다 — “반복 루프에 빠지지 마라”, "사용자가 원하는 형식을 따라라"처럼, 이미 라운딩을 할 줄 아는 골퍼의 특정 습관 하나를 교정한다.

원포인트레슨이 "왼쪽 손목"이라는 한 가지에만 집중하듯이, RL의 가중치 변화도 놀라울 정도로 작다:

핵심 관찰:
RL/RLHF/DPO가 만드는 가중치 변화(ΔW)는 본질적으로 저랭크(low-rank)다.

왜?
7B 모델의 파라미터 공간은 70억 차원이다.
프리트레인은 이 거대한 공간 안에서 의미 있는 표현을 깔아놓았다.
RL은 이 공간 전체를 움직이는 게 아니라,
소수의 주요 특이값(singular value) 방향으로만 미세하게 조정한다.

70억 차원 중에서 RL이 실제로 건드리는 "유효 차원(intrinsic dimension)"은
극히 작다 — 수백에서 수천 정도.

비유: 수십억 개의 이퀄라이저 슬라이더가 있는 오디오 믹서.
RL은 그중 몇 백 개만 살짝 움직인다.
나머지는 프리트레인이 이미 설정해놓은 위치에 머문다.

실무적 증거:\

LoRA (rank 4–16)로 DPO/GRPO를 돌려도 full fine-tuning과 거의 동등한 성능\

Aghajanyan et al. (2020): 사전학습 모델의 적응은 "낮은 내재 차원"을 가진다\

Unsloth: GRPO + QLoRA로 5GB VRAM에서도 학습 가능

정보기하학적 해석:
정책 공간의 피셔 정보 행렬을 보면,
RL 업데이트 방향의 유효 차원(effective dimension)이
전체 파라미터 수에 비해 극히 작다.
→ 정책 매니폴드 위의 곡률이 소수의 방향에 집중되어 있다.
→ 이 소수 방향만 업데이트하면 충분하다 = LoRA의 이론적 근거

시각화 계획

합의 길 / 곱의 길 다이어그램: 프리트레인(넓히기) → SFT(다양성) → RL(첨예화)의 3단계를 분포의 변화로
~~롤아웃 난이도와 학습 시그널 그래프~~: ✅ 본문에 SVG로 삽입 완료
Epiplexity 학습 곡선: 면적 = 학습 가능한 구조. 풍부한 데이터 vs 빈약한 데이터 비교
$\Delta W$ 의 특이값 분포: RL 업데이트가 상위 몇 개 특이값에 집중됨을 보여주는 스펙트럼 그래프

다음 장으로의 질문

이론적 조건은 알았다: 프리트레인이 스펙트럼을 깔아야 하고, 롤아웃 난이도가 적정해야 하고, RL은 소수의 방향만 바꾸면 된다.

그런데 이 RL을 실제로 돌리려면 — 온라인인가, 오프라인인가? Ch8의 DPO 가계도는 모두 오프라인이었다. 온라인이 이론적으로 우월하다면, 왜 모두 오프라인을 선택한 건가?