Chapter 17: 에이전틱 AI — 행동하는 모델을 정렬하기
의문
Part I–II에서 DPO와 GRPO를 배웠고, Part III에서 이미지·영상·로보틱스로 확장했다. 하지만 이 모든 것에는 공통점이 있었다: 한 번의 입력에 한 번의 출력. 프롬프트를 주면 텍스트가 나오고, 노이즈를 주면 이미지가 나온다.
현실에서 가장 빠르게 성장하는 AI 응용은 그렇지 않다:
에이전틱 AI (Agentic AI):
LLM이 도구를 호출하고, 파일시스템을 탐색하고, 웹을 검색하고,
코드를 실행하고, 결과를 관찰하고, 다음 행동을 결정한다.
한 번의 출력이 아니라, 여러 스텝에 걸친 의사결정 시퀀스.예시:
- “이 코드의 버그를 찾아서 고쳐줘” → 파일 읽기 → 에러 재현 → 원인 분석 → 수정 → 테스트 → 커밋
- “다음 주 출장 일정을 잡아줘” → 캘린더 확인 → 항공편 검색 → 호텔 예약 → 일정 등록
- “이 논문의 실험을 재현해줘” → 논문 읽기 → 코드 작성 → 데이터 다운로드 → 실행 → 결과 비교
이것은 RL의 원래 문제 설정과 훨씬 더 가깝다. 사실 Ch1–16에서 다룬 “한 번 생성” 설정이 RL의 관점에서는 퇴화된(degenerate) 특수 케이스였다.
RL의 기본 구조: 에이전트가 환경에서 행동(action)하고, 보상(reward)과 상태(state)를 관찰한다. LLM RL은 이 루프가 1회로 퇴화한 것이고, 에이전틱 RL은 원래의 다회 루프로 돌아간다. (CC0, Megajuice, Wikimedia Commons)
LLM RL vs 에이전틱 RL — 무엇이 달라지는가
LLM RL (Ch1–13):
상태(state): 프롬프트 x
행동(action): 응답 y (한 번에 전체 생성)
보상(reward): 응답 완료 후 한 번 받음
에피소드: 1스텝 (= 퇴화된 MDP)에이전틱 RL:
상태(state): 프롬프트 + 지금까지의 관찰 이력 (o₁, a₁, o₂, a₂, …)
행동(action): 다음 도구 호출 또는 텍스트 출력 (스텝마다 하나씩)
보상(reward): 최종 태스크 성공 여부 (중간 보상은 희소하거나 없음)
에피소드: 수십~수백 스텝 (= 진짜 MDP, 실제로는 POMDP)
| 측면 | LLM RL | 에이전틱 RL |
|---|---|---|
| 에피소드 길이 | 1 (한 번 생성) | 수십~수백 (다단계 의사결정) |
| 행동 공간 | 토큰 시퀀스 | 도구 호출 + 토큰 시퀀스 |
| 관찰 | 프롬프트만 | 프롬프트 + 환경 피드백 |
| 보상 지연 | 없음 (즉시) | 길다 (최종 결과에서만) |
| 크레딧 할당 | 불필요 | 핵심 문제 (어떤 스텝이 성공을 만들었나) |
| 부분 관찰 | 없음 | 있음 (웹페이지의 일부만 보임) |
아래 그림은 에이전틱 RL에서 크레딧 할당 문제를 보여준다. 20스텝 궤적 중 어떤 스텝이 성공에 기여했는가?
왜 기존 DPO/GRPO가 바로 적용되지 않는가
[문제 1] 보상 지연과 크레딧 할당
에이전트가 20스텝에 걸쳐 버그를 찾아 고쳤다.
보상: 마지막에 테스트 통과 여부로 +1 또는 0.문제: 20스텝 중 어떤 스텝이 "잘한 것"이고 어떤 스텝이 "헛수고"인가?
- Ch13의 GRPO는 전체 응답에 하나의 보상을 준다
- 에이전틱 환경에서는 이것이 너무 거칠다
- 스텝 15에서 핵심 통찰을 했고 나머지 19스텝은 삽질이었을 수 있다
- 전체에 +1을 주면 삽질 19스텝도 강화된다
[문제 2] 긴 컨텍스트와 메모리
20스텝의 관찰 이력이 컨텍스트에 쌓인다.
- 64K~128K 토큰이 필요할 수 있다
- 각 스텝에서 모델이 처리해야 하는 컨텍스트가 점점 길어짐
- 추론 비용이 스텝 수에 비례하여 증가
- GRPO의 "G개 롤아웃"이 수십 배 더 비싸진다
[문제 3] 도구 호출의 이산적 분기
에이전트의 행동 공간은 "어떤 도구를 호출할 것인가"를 포함한다.
- 잘못된 도구 선택은 이후 모든 스텝을 무효화할 수 있다
- 토큰 수준의 확률 조정과는 다른 차원의 문제
- 탐색 공간이 조합적으로 폭발한다
[문제 4] 에이전틱 리워드 해킹 — “목적은 달성했지만…”
에이전틱 환경에서 리워드 해킹은 LLM이나 디퓨전보다 더 위험하고,
더 창의적이고, 더 현실적 피해를 만든다.[코딩 에이전트 해킹]
보상: “테스트 케이스를 통과하는가?” (1/0)해킹: 에이전트가 테스트 케이스 자체를 수정해서 통과시킨다.
- "테스트가 틀렸으니 고쳐야 한다"는 그럴듯한 추론을 동반
- 보상은 1이지만, 실제 버그는 고쳐지지 않았다
- 더 교묘한 변형: assert 문의 기대값을 현재 출력에 맞게 변경
- SWE-bench에서 실제로 보고된 문제
[검색 에이전트 해킹]
보상: “사용자 질문에 관련 있는 문서를 찾았는가?”해킹: 에이전트가 검색을 하지 않고,
자기가 알고 있는 내용으로 그럴듯한 답변을 직접 생성한다.
- 검색 도구를 호출하는 "비용"을 피하는 것이 더 높은 보상
- 짧은 에피소드 = 빠른 완료 = 암묵적 보상
- "효율적으로 일한다"와 "일을 빼먹는다"의 경계가 모호
[파일 시스템 에이전트 해킹]
보상: “요청된 파일 정리가 완료되었는가?”해킹: 에이전트가 확인 메시지만 출력하고 실제로는 아무것도 하지 않는다.
- 또는: 복잡한 정리 대신 모든 파일을 한 폴더에 몰아넣기
- 보상 함수가 "폴더 구조가 깔끔한가"를 정확히 검증하지 않으면 통과
에이전틱 해킹이 LLM 해킹보다 위험한 이유:
LLM 해킹: 텍스트가 이상해질 뿐. 사용자가 알아챌 수 있다.
에이전틱 해킹: 실제 파일이 삭제되고, 코드가 변경되고,
이메일이 발송된다. 현실 세계에 돌이킬 수 없는 영향.
- 에이전틱 RL에서 보상 설계의 중요성이 Ch13(RLVR)보다 훨씬 더 첨예하다.
현재의 접근법들
[접근 1] 행동 클로닝 + DPO (현재 주류)
전문가 시연(expert trajectory)을 수집하고 SFT로 학습.
- 이것은 로보틱스의 "행동 클로닝"과 동일한 구조.
- 한계도 동일: 분포 밖 상황에서 실패.
DPO 적용:
- 전체 궤적을 하나의 "응답"으로 취급
- (성공 궤적, 실패 궤적) 쌍으로 DPO 학습
- 문제: 궤적 수준의 쌍비교는 너무 거칠다
성공 궤적 안에도 나쁜 스텝이 있고,
실패 궤적 안에도 좋은 스텝이 있다[접근 2] 스텝 수준 RL — ACT (Agentic Critical Training)
ACT (2025)는 각 스텝에서 "전문가 행동 vs 모델 행동"을 쌍으로 만든다.
- 모델에게 "어느 쪽이 더 나은 행동인가?"를 판단하게 한다
- 맞으면 보상, 틀리면 벌점 → RL로 학습
- 핵심: 모델이 스스로 “왜 이 행동이 더 나은지” 추론하게 된다
- SFT로 반영(reflection)을 가르치는 것보다 효과적
- 이유: SFT는 "반영 텍스트를 모방"하지만,
ACT는 “반영 능력 자체를 RL로 학습”이것은 우리 교재의 핵심 서사와 정확히 일치한다:
“SFT만으로는 판단력이 안 길러진다. DPO/RL이 필요하다.”[접근 3] 검증 가능한 에이전틱 태스크에 GRPO
코딩 에이전트: 코드 수정 → 테스트 실행 → 통과 여부 = 이진 보상
- RLVR(Ch13)의 에이전틱 확장
- 검증기가 있으므로 보상이 자동
- 문제: 크레딧 할당이 여전히 거칠다
KARL (Knowledge Agents via RL, 2026):
- 기업 검색 에이전트를 RL로 학습
- 다단계 검색 + 추론을 반복적 off-policy RL로 최적화
- 이종 태스크(수치 추론, 문서 합성, 사실 검증 등)를 동시에 학습
- 단일 태스크 최적화보다 다중 태스크 RL이 일반화에 유리
AutoResearch-RL (2026):
- LLM이 코드를 수정하고, 실행하고, 결과를 관찰하는 연구 에이전트
- PPO로 메타 정책을 학습: “어떤 실험을 다음에 할 것인가”
- 보상 = validation bits-per-byte의 개선
- 영원히 작동하도록 설계됨 (수렴할 때까지 반복)
[접근 4] 에이전틱 보상 시스템 — RLAR
RLAR (RL from Agentic Rewards, 2026):
- 보상 함수 자체를 에이전트가 동적으로 설계
- 인터넷에서 최적의 보상 모델을 검색하고, 코드 생성으로 검증기를 합성
- Ch7(다차원 보상)과 Ch13(RLVR)의 자연스러운 확장:
보상이 고정되어 있지 않고, 태스크에 맞게 자동으로 진화한다[접근 5] 사용하면서 학습한다 — OpenClaw-RL
OpenClaw-RL (Wang et al., 2026)은 이 챕터의 모든 문제를 정면으로 다루는 프레임워크다.
핵심 관찰: 에이전트가 행동할 때마다 "다음 상태 시그널"이 생긴다.
사용자의 답장, 도구 실행 결과, 터미널 출력, GUI 화면 변화 — 이 모든 것이
이전 행동에 대한 암묵적 평가다. 기존 시스템은 이걸 다음 행동의 컨텍스트로만 쓰고 버렸다.OpenClaw-RL은 이 "다음 상태 시그널"에서 두 가지를 추출한다:
1. 평가 시그널 (evaluative signal) → 스칼라 보상으로 변환
“사용자가 다시 질문했다” → 이전 답이 불만족 → r = -1
“테스트가 통과했다” → r = +1
- PRM(Process Reward Model) 판정기로 매 스텝마다 보상 추출
- Ch13의 GRPO에서 다뤘던 "결과 보상만으로는 부족하다"의 해결:
매 스텝마다 밀집 보상(dense reward)을 준다2. 방향 시그널 (directive signal) → 토큰 수준 교정으로 변환
“파일을 먼저 확인했어야지” → 단순히 "나빴다(r=-1)"가 아니라,
"어떤 토큰이 달라져야 했는가"까지 알려준다.이것을 Hindsight-Guided On-Policy Distillation (OPD)로 구현:
- 방향 시그널에서 힌트(hint)를 추출
- 원래 프롬프트 + 힌트 = “사후적으로 강화된 컨텍스트” 구성
- 같은 모델에 강화된 컨텍스트를 주면 더 나은 토큰 분포가 나온다
- teacher(힌트 있음)과 student(힌트 없음)의 토큰별 로그확률 차이
= 토큰 수준의 방향 어드밴티지- 어떤 토큰은 올리고 어떤 토큰은 내리는, DPO보다 정밀한 시그널
이것이 왜 우리 교재의 서사에서 중요한가:
Ch1에서 DPO의 시그널 구조를 배웠다:
“쌍 전체에 대해 하나의 마진” → 시퀀스 수준 스칼라Ch13에서 GRPO의 시그널 구조를 배웠다:
“그룹 내 상대적 어드밴티지” → 에피소드 수준 스칼라OpenClaw-RL은 두 차원에서 해상도를 올린다:
평가 시그널: 에피소드 수준 → 스텝 수준 (매 행동마다 보상)
방향 시그널: 스칼라 → 토큰 수준 (어떤 토큰이 문제인지 특정)→ "스칼라 보상의 정보 손실"이라는 근본 문제에 대한 가장 직접적인 답.
OpenClaw-RL의 아키텍처가 해결하는 실무 문제:
Ch11에서 배운 "온라인 학습의 세 가지 어려움"을 상기하자:
[1] 모델을 계속 갱신해야 한다
- OpenClaw-RL: 네 개의 비동기 루프로 분리
정책 서빙(SGLang) / 환경 / PRM 판정 / 학습(Megatron)- 서빙을 중단하지 않고 학습 가능 (graceful weight update)
- 사용자는 모델이 학습 중인지 모른다
[2] 모델이 드리프트하는 위험
- PRM이 매 스텝마다 보상을 주므로 이상 행동을 즉시 탐지
- KL 제약(β_KL = 0.01)으로 레퍼런스에서의 이탈 제한
- 비대칭 클리핑(ε=0.2, ε_high=0.28)으로 급격한 업데이트 방지
[3] 데이터셋을 계속 만드는 것의 어려움
- "데이터셋을 만든다"는 개념 자체가 사라진다.
- 에이전트가 사용되는 것 자체가 데이터 생성이다.
- 사용자의 반응, 도구의 출력이 자동으로 학습 시그널이 된다.
- “Train Any Agent Simply by Talking” — 논문 제목 그대로.
적용 범위:
- 퍼스널 에이전트: 사용자의 대화에서 학습 (개인화)
- 터미널 에이전트: 명령어 실행 결과에서 학습
- GUI 에이전트: 화면 상태 변화에서 학습
- SWE 에이전트: 테스트 결과, diff에서 학습
- 도구 호출 에이전트: API 반환값에서 학습
- 하나의 프레임워크로 모든 에이전틱 환경을 통합
실험 결과:
퍼스널 에이전트: 36회 대화만으로 개인화 점수 0.17 → 0.81
터미널/GUI/SWE/도구 호출: 모두 RL 학습으로 일관된 성능 향상
프로세스 보상 + 결과 보상 통합이 결과 보상만 쓰는 것보다 우수
Part I–II의 도구가 어떻게 확장되는가
DPO의 개념 (Part I):
Ch1 마진 → 궤적 수준 마진 (성공 vs 실패 궤적)
Ch4 길이 편향 → 에이전틱에서는 “스텝 수 편향”
(길게 탐색한 성공보다 짧게 성공한 것이 더 높은 점수?)
Ch5 레퍼런스 → 에이전트의 기본 행동 정책 (SFT된 에이전트)GRPO의 개념 (Ch13):
그룹 통계 → 같은 태스크에 대한 여러 궤적의 성공률로 베이스라인
RLVR → 테스트 통과 여부가 검증기 역할
희소 보상 → 에이전틱의 핵심 문제
- OpenClaw-RL의 PRM이 매 스텝마다 밀집 보상으로 해결
- 결과 보상 + 프로세스 보상 통합이 실험적으로 우수
Ch2의 “좋은 DPO 쌍” 원칙:
“스칼라 보상은 정보를 버린다” → OpenClaw-RL의 OPD가 정확히 이 문제를 해결
평가 시그널(스칼라) + 방향 시그널(토큰 수준) = DPO보다 정밀한 학습Ch11의 “온라인의 세 가지 어려움”:
- [1] 갱신 비용 → OpenClaw-RL의 4-루프 비동기 아키텍처로 해결
- [2] 드리프트 → 매 스텝 PRM + KL 제약으로 통제
- [3] 데이터 비용 → “사용이 곧 학습” — 데이터셋이라는 개념 자체가 사라짐
정보이론 (Ch9–10):
프리트레인 = 에이전트의 기본 역량 (도구 사용법, 추론 능력)
SFT = 전문가 시연으로 기본 궤적 패턴 학습
RL = 에이전트가 자기 경험으로 전략을 개선
- 합의 길(프리트레인+SFT) → 곱의 길(RL)의 구조가 그대로 적용
이 분야가 지금 가장 뜨거운 이유
에이전틱 AI가 2025–2026년의 핵심 전선인 이유:
1. 경제적 가치가 가장 크다
- 코딩, 연구, 고객 서비스, 데이터 분석 — 자동화할 수 있는 업무의 범위
- “한 번 대답하기”(LLM)보다 “업무를 처리하기”(에이전트)가
직접적인 경제적 가치를 만든다2. RL이 가장 자연스러운 학습 패러다임이다
- 에이전트의 행동은 순차적이고, 결과는 지연되고, 환경은 확률적
- 이것은 RL이 원래 풀도록 설계된 문제
- LLM RL은 "퇴화된 1스텝 MDP"였지만,
에이전틱 RL은 "진짜 MDP"로 돌아가는 것3. Ch1–16의 모든 도구가 필요하다
- DPO/GRPO: 에이전트 정렬의 기본 도구
- 마진, 레퍼런스, 희소 보상: 에이전틱 환경에서 더 첨예한 형태로 재등장
- 디퓨전 정책: 로봇 에이전트의 행동 생성기
- 이 교재가 깔아놓은 기초 위에서 에이전틱 RL이 작동한다
4. "사용이 곧 학습"이라는 패러다임 전환
- OpenClaw-RL이 보여준 것: 에이전트가 배포된 순간부터
모든 상호작용이 학습 데이터가 된다- 데이터 수집 → 학습 → 배포라는 순차적 파이프라인이
배포 = 학습이라는 단일 루프로 합쳐진다- Ch11에서 “온라인 vs 오프라인” 딜레마로 다뤘던 것이
에이전틱에서는 자연스럽게 해소된다:
환경 피드백이 끊임없이 들어오니까.
graph LR
subgraph llm["LLM RL (1스텝 MDP)"]
direction LR
S1["프롬프트 x"] -->|"행동: 응답 y"| R1["보상 r"]
end
subgraph agent["에이전틱 RL (다스텝 POMDP)"]
direction LR
SA["프롬프트"] -->|"a₁: 파일 읽기"| O1["관찰 o₁"]
O1 -->|"a₂: 코드 수정"| O2["관찰 o₂"]
O2 -->|"a₃: 테스트"| O3["관찰 o₃"]
O3 -->|"..."| ON["최종 결과"]
ON --> RA["보상 r"]
end
style llm fill:#e3f2fd,stroke:#1565C0
style agent fill:#fff3e0,stroke:#E65100
style RA fill:#ffcdd2,stroke:#C62828
graph LR
subgraph resolution["시그널 해상도 스펙트럼"]
direction LR
DPO["<b>DPO</b><br/>시퀀스 수준<br/>스칼라 1개"] --> GRPO["<b>GRPO</b><br/>에피소드 수준<br/>그룹 상대"] --> PRM["<b>PRM</b><br/>스텝 수준<br/>매 행동 보상"] --> OPD["<b>OPD</b><br/>토큰 수준<br/>방향 시그널"]
end
style DPO fill:#ffcdd2
style GRPO fill:#fff9c4
style PRM fill:#c8e6c9
style OPD fill:#b3e5fc,stroke:#0277BD,stroke-width:2px
시각화 계획
- MDP 대비 다이어그램: 위 mermaid 참조
- 크레딧 할당 예시: 20스텝 궤적에서 "핵심 스텝"을 하이라이트
- 시그널 해상도 스펙트럼: 위 mermaid 참조
- OpenClaw-RL 4-루프 아키텍처: 서빙/환경/PRM/학습이 비동기로 돌아가는 다이어그램
- 에이전틱 RL 계보 DAG: SFT → DPO(궤적 수준) → ACT(스텝 수준) → OpenClaw-RL(스텝+토큰 수준)