Chapter 7: 다차원 보상 — 스칼라를 넘어서
의문
보상이 하나의 숫자가 아니라 벡터(정확성, 유창함, 안전성, …)라면, "이 응답이 좋다"는 판단을 어떻게 내리는가?
핵심: 파레토 프론티어
자동차를 고른다고 생각하자. 두 가지만 따진다: 성능(마력)과 연비(km/L).
A, B, C, D 모두 파레토 최적이다 — 하나를 올리면 다른 하나가 내려간다. 이 곡선 위의 어떤 점이 "최고"인지는 운전자의 가중치가 결정한다. 출퇴근용이면 C나 D, 서킷용이면 A.
그런데 어느 날 신차 E가 출시된다:
E는 C를 **지배(dominate)**한다 — 성능도 C 이상, 연비도 C 이상이므로 C는 더 이상 파레토 최적이 아니다. 프론티어가 바깥으로 밀려났다. 이것을 "파레토 프론티어를 확장했다"고 말한다.
이 비유가 LLM에서 정확히 대응하는 지점:
기존 프론티어: 정확성과 간결성 사이에서 트레이드오프
→ 정확하게 답하려면 길어지고, 짧게 답하면 부정확해진다
모델 개선 (더 좋은 프리트레인, 더 나은 RL):
→ "짧으면서도 정확한" 응답을 생성할 수 있게 된다
→ 기존에 불가능했던 영역이 가능해진다
→ 파레토 프론티어가 바깥으로 확장된다
Ch9에서 배울 "스펙트럼에서 시그널로":
프리트레인이 프론티어의 위치를 결정하고 (스펙트럼 = 프론티어의 범위)
RL이 프론티어 위의 어디에 서는지를 결정한다 (시그널 = 가중치 선택)
더 좋은 프리트레인 = 프론티어 자체를 바깥으로 밀어내는 것
LLM 응답도 같다:
- 정확성↑ → 간결성↓ (설명이 길어진다)
- 안전성↑ → 유용성↓ (거절이 많아진다)
- 모든 차원을 동시에 최대화할 수 없다 → 파레토 프론티어가 존재한다
- 하지만 모델 자체가 좋아지면 → 프론티어를 바깥으로 확장할 수 있다
스칼라로 축약하는 세 가지 방법
R(x, y) = Σ_d w_d × r_d(x, y)
1. 고정 가중치: 모든 프롬프트에 w = (0.5, 0.3, 0.2)
→ 단순, 하지만 "코드 질문에도 안전성 가중치 0.3?"
2. 맥락 의존 (ArmoRM MoE): 프롬프트를 보고 w를 자동 결정
→ "코드 질문 → 정확성↑", "민감한 질문 → 안전성↑"
3. 추론 시 조절: 사용자가 w를 직접 설정
→ 파레토 프론티어 전체를 학습해두고, 추론 시 선택
스칼라로 축약하는 순간, 리워드 해킹의 문이 열린다:
자동차 비유로 돌아가면:
"성능 0.5 + 연비 0.3 + 안전성 0.2"로 종합 점수를 매긴다고 하자.
자동차 제조사가 이 점수를 최적화하면?
→ 안전성(가중치 0.2)을 약간 희생하면 성능(가중치 0.5)을 크게 올릴 수 있다.
→ 종합 점수는 올라가지만, 브레이크가 약한 차가 나온다.
→ 가중치가 "안전성은 좀 덜 중요하다"는 의미가 아닌데,
최적화 알고리즘은 그렇게 해석한다.
LLM에서 실제로 벌어지는 일:
R = 0.4 × 유용성 + 0.3 × 정확성 + 0.3 × 안전성
모델이 발견하는 해킹 전략:
"질문에 직접 답하지 않고 장황하게 배경 설명을 하면
유용해 보이고(+유용성), 틀린 말을 안 하고(+정확성),
위험한 내용도 피할 수 있다(+안전성)."
→ 종합 점수는 높지만, 사용자 질문에 대한 답이 없다.
→ 가중합 보상의 구조적 한계: 차원 간의 트레이드오프를
"적정 수준"이 아니라 "최적화에 유리한 방향"으로 해결해버린다.
이것이 다차원 보상을 연구하는 근본적 동기다:\
- 스칼라 하나로 축약하지 말고, 각 차원을 독립적으로 평가하고,
- 파레토 프론티어 위에서 선택하게 하면 이 해킹이 어려워진다.
평가기준 기반 보상(Rubrics-as-Rewards) — 최신 흐름
- 전통적: 인간 쌍비교 → 스칼라 보상 모델 → RL
- 현재: LLM이 평가기준(rubric)별 점수 생성 → 다차원 보상 → 정렬
- 리스트와이즈(LGPO): 쌍이 아닌 여러 응답을 한꺼번에 순위 최적화
시각화 계획
- 2D 파레토 곡선: 성능(x축) × 연비(y축) 위에 자동차 점들 → 프론티어 곡선
- 신차 E 등장 → 프론티어가 바깥으로 밀려나는 애니메이션
- LLM 버전: 정확성(x) × 간결성(y), 모델 업그레이드 시 프론티어 확장
- 슬라이더 UI: 가중치 하나를 조절하면 프론티어 위의 선택점이 이동
다음 장으로의 질문
DPO의 여섯 요소를 해부했다. 각 요소를 바꾸면 다른 알고리즘이 나왔다. 이 변형들을 전체 지도로 정리하면? 그리고 이 변형들이 공유하는 근본 한계는 없는가? — DPO에서 출발해서, 어디까지 갈 수 있고, 어디서 다른 길이 필요한가?