단일 에이전트 강화 학습(single-agent RL)은 환경(environment)이 정상적(stationary)이라고 가정합니다. 같은 세계(world)에 학습 중인 에이전트를 두 개 넣는 순간 이 가정은 깨집니다. 각 에이전트가 다른 에이전트의 환경 일부가 되고, 둘 다 동시에 변하기 때문입니다. 멀티 에이전트 강화 학습(Multi-Agent RL)은 마르코프 가정(Markov assumption)이 더 이상 유지되지 않는 상황에서도 학습이 수렴하도록 만드는 기법들의 모음입니다.
유형: Build
언어: Python
선수 지식: Phase 9 · 04 (Q-learning), Phase 9 · 06 (REINFORCE), Phase 9 · 07 (Actor-Critic)
예상 시간: 약 45분
문제
방 안을 돌아다니는 로봇 한 대를 학습시키는 일은 단일 에이전트 강화 학습 문제입니다. 그러나 축구팀은 그렇지 않습니다. AlphaStar가 StarCraft 상대(opponent)와 겨루는 상황도 그렇지 않고, 입찰(bidding) 에이전트들이 모인 시장(marketplace)도, 사거리 정지선에서 협상하는 두 대의 자동차도 그렇지 않습니다. 현실의 다대다(many-on-many) 문제 대부분이 그렇지 않습니다.
모든 멀티 에이전트 환경에서 한 에이전트의 관점으로 보면 다른 에이전트들은 환경의 일부입니다. 다른 에이전트들이 학습하면서 행동을 바꾸면 환경은 비정상(non-stationary) 상태가 됩니다. "다음 상태는 현재 상태와 내 행동에만 의존한다"는 마르코프 성질(Markov property)이 깨지는 셈입니다. 다음 상태는 다른 에이전트들이 무엇을 선택했는지에도 의존하고, 그들의 정책(policy)은 계속 움직이는 표적이기 때문입니다.
이러한 변화는 표(tabular) 기반 수렴 증명을 무너뜨립니다. Q-learning의 수렴 보장은 정상 환경을 전제로 하기 때문입니다. 단순한 심층 강화 학습(deep RL)도 마찬가지로 무너집니다. 에이전트들은 서로를 쫓는 순환(loop)에 빠져 안정적인 정책으로 수렴하지 못합니다. 그래서 멀티 에이전트 전용 기법이 필요합니다. 중앙집중 학습/분산 실행(centralized training / decentralized execution; CTDE), 반사실(counterfactual) 기준선, 리그 플레이(league play), 자가 대국(self-play) 같은 것들이 그 예입니다.
2026년 응용 분야로는 로봇 군집(robot swarm), 교통 라우팅, 자율주행 차량 함대, 시장 시뮬레이터, 멀티 에이전트 대규모 언어 모델(LLM) 시스템(Phase 16), 그리고 둘 이상의 지능적 플레이어가 등장하는 모든 게임이 있습니다.
사전 테스트
2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요
1.단일 에이전트 강화 학습(single-agent RL)은 환경이 정상(stationary)이라고 가정합니다. 같은 환경에 학습 중인 에이전트 두 개를 넣으면 왜 이 가정이 깨지나요?
2.공유 보상(shared reward)을 가진 협력적 멀티 에이전트 과제에서 '신용 할당(credit assignment)' 문제란 무엇인가요?
0/2 답변 완료
개념
**형식화: 마르코프 게임(Markov Game). 마르코프 결정 과정(MDP)을 일반화한 모형입니다. 상태 집합 S, 결합 행동(joint action) a = (a_1, …, a_n), 전이 확률 P(s' | s, a), 그리고 에이전트별 보상 R_i(s, a, s')로 구성됩니다. 각 에이전트 i는 자기 정책 π_i 아래에서 자기 누적 보상(return)을 최대화합니다. 보상이 모두 동일하면 완전 협력적(fully cooperative)이고, 합이 0이면 적대적(adversarial; zero-sum), 그 중간이면 일반합(general-sum)**입니다.
핵심 도전 과제:
비정상성(Non-stationarity). 에이전트 i의 관점에서 보면 전이 분포 P(s' | s, a_i)는 다른 에이전트들의 정책 π_{-i}에 의존하고, π_{-i}는 계속 변합니다.
신용 할당(Credit assignment). 공유 보상(shared reward)이 주어졌을 때, 그 보상을 누가 만들었는지 가리기 어렵습니다.
탐험 조정(Exploration coordination). 에이전트들은 같은 상태를 중복으로 탐험하는 것이 아니라, 상호 보완적인 전략을 탐험해야 합니다.
확장성(Scalability). 결합 행동 공간은 에이전트 수 n에 대해 지수적으로 커집니다.
부분 관측성(Partial observability). 각 에이전트는 자기 관측값(observation)만 보고, 전역 상태(global state)는 가려져 있습니다.
네 가지 지배적인 학습 체제(regime):
1. 독립 Q 학습 / 독립 PPO(Independent Q-learning, Independent PPO; IQL, IPPO). 각 에이전트가 자신의 Q 함수 또는 정책을 학습하면서, 다른 에이전트들은 환경의 일부로 취급합니다. 단순하고 가끔은 잘 동작합니다. 특히 경험 재현(experience replay)이 매끄러운 에이전트 모델링 효과를 내는 경우에 그렇습니다. 이론적인 수렴 보장은 없습니다. 실무에서는 결합이 느슨한(loosely-coupled) 과제에는 괜찮고, 결합이 강한(tightly-coupled) 과제에서는 잘 동작하지 않습니다.
2. 중앙집중 학습/분산 실행(Centralized Training, Decentralized Execution; CTDE). 현대 멀티 에이전트 강화 학습의 가장 흔한 패러다임입니다. 각 에이전트는 지역 관측값 o_i에 조건화된 자신의 정책π_i를 가지며, 배포 시에는 평범한 분산 실행 형태가 됩니다. 학습 중에는 전역 상태와 결합 행동에 조건화된 중앙집중 크리틱(centralized critic) Q(s, a_1, …, a_n)을 함께 사용합니다. 대표적인 알고리듬은 다음과 같습니다.
MADDPG(Lowe et al. 2017): 에이전트별 중앙집중 크리틱을 가진 DDPG입니다.
COMA(Foerster et al. 2017): 반사실 기준선(counterfactual baseline)을 사용합니다. "내가 만약 다른 행동 a'를 했다면 보상이 어땠을까?"를 물어, 내 기여도만 분리합니다.
MAPPO / 공유 크리틱을 쓰는 IPPO(Yu et al. 2022): 중앙집중 가치 함수(centralized value function)를 가진 PPO입니다. 2026년 협력형 멀티 에이전트 강화 학습에서 지배적인 방식입니다.
QMIX(Rashid et al. 2018): 가치 분해(value decomposition)를 사용합니다. Q_tot(s, a) = f(Q_1(s, a_1), …, Q_n(s, a_n))이며, 단조(monotonic) 혼합을 적용합니다.
3. 자가 대국(Self-play). 같은 에이전트의 두 복사본이 서로 대국합니다. 상대의 정책은 결국 과거 어느 시점의 내 정책 스냅숏입니다. AlphaGo / AlphaZero / MuZero, OpenAI Five가 여기에 속합니다. 합이 0인(zero-sum) 게임에서 가장 잘 동작합니다. 학습 신호가 대칭적이기 때문입니다.
4. 리그 플레이(League play). 자가 대국을 일반합(general-sum) 또는 적대적 환경으로 확장한 방식입니다. 과거와 현재의 정책 집단(population)을 보관해 두고, 리그에서 상대를 표본 추출해 학습합니다. 익스플로이터(exploiter; 현재 최강 정책을 무너뜨리는 데 특화된 정책)와 메인 익스플로이터(main exploiter; 익스플로이터를 무너뜨리는 데 특화된 정책)를 함께 두기도 합니다. StarCraft II의 AlphaStar가 대표 사례입니다. 가위바위보(rock-paper-scissors)식 전략 순환이 존재하는 게임에서 필요합니다.
의사소통(Communication). 에이전트들이 학습된 메시지 m_i를 서로 주고받도록 허용하는 방식입니다. 협력 환경에서 잘 작동합니다. Foerster et al. (2016)은 에이전트 간(inter-agent) 미분 가능한 통신을 종단간(end-to-end)으로 학습할 수 있음을 보였습니다. 오늘날의 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템(Phase 16)은 본질적으로 자연어로 의사소통을 합니다.
직접 만들기
이 lesson에서는 두 협력 에이전트가 등장하는 6×6 그리드 월드(GridWorld)를 사용합니다. 두 에이전트는 서로 반대쪽 모서리에서 출발해 공유 목표(shared goal)에 도달해야 합니다. 공유 보상은 둘 중 하나라도 아직 움직이는 동안에는 매 스텝(step)마다 -1, 두 에이전트가 모두 도착하면 +10입니다. 상세한 구현은 code/main.py에서 확인할 수 있습니다.
이 과제에서는 보상이 조밀하고(dense) 두 에이전트 사이에 잘 정렬되어(aligned) 있기 때문에 독립 Q 학습으로도 동작합니다. 그러나 한 에이전트가 다른 에이전트를 기다려야 하는 식의 강하게 결합된 과제에서는 실패합니다.
Step 3: 분해 가치 갱신(decomposed-value update)을 곁들인 중앙집중 Q
결합 행동 Q(s, a_1, a_2) 위에서 하나의 Q 함수를 사용합니다. 공유 보상으로 갱신하고, 실행 단계에서는 주변화(marginalizing)를 통해 분산 실행으로 바꿉니다. 구체적으로 π_i(s) = argmax_{a_i} max_{a_{-i}} Q(s, a_1, a_2) 형태입니다. 지수적으로 커지는 결합 행동 공간을 감수하는 대신, 올바른 전역 시점을 얻는 거래입니다.
Step 4: 간단한 자가 대국(self-play; 적대적 2-에이전트)
같은 에이전트에 두 가지 역할을 부여합니다. 에이전트 A를 에이전트 B와 붙여 학습시키고, K 에피소드(episode)마다 A의 가중치(weights)를 B에 복사합니다. 학습이 대칭적이라 진전이 일관됩니다. AlphaZero 학습 절차의 축소판이라고 볼 수 있습니다.
흔한 함정
비정상성 재현(Non-stationary replay). 독립 에이전트 환경에서의 경험 재현은 단일 에이전트 환경보다 더 나쁘게 동작할 수 있습니다. 오래된 전이(transition) 표본은 이미 구식이 된 상대의 정책에서 만들어진 것이기 때문입니다. 해결책은 최신성에 따라 재라벨링(relabel)하거나 가중치를 주는 것입니다.
신용 할당의 모호성(Credit assignment ambiguity). 긴 에피소드 끝에 공유 보상이 주어지면, 어느 에이전트가 얼마나 기여했는지 구분하기 어렵습니다. 해결책은 반사실 기준선(COMA)이나 에이전트별 보상 정형화(reward shaping)입니다.
정책 표류 및 추격(Policy drift / chasing). 각 에이전트의 최선 응답(best response)은 상대의 갱신에 따라 계속 변합니다. 해결책은 중앙집중 크리틱, 느린 학습률, 혹은 "한 번에 하나씩만 학습시키고 나머지는 동결"하는 전략입니다.
협력을 통한 보상 해킹(Reward hacking via coordination). 에이전트들이 설계자가 예상하지 못한 협조적 편법을 찾아냅니다. 예를 들어 경매 에이전트들이 일제히 0원 입찰로 수렴하는 경우가 있습니다. 해결책은 신중한 보상 설계와 행동 제약입니다.
탐험의 중복(Exploration redundancy). 두 에이전트가 같은 상태-행동 쌍을 중복으로 탐험합니다. 해결책은 에이전트별 엔트로피 보너스(entropy bonus)나 역할 조건화(role-conditioning)입니다.
리그 순환(League cycles). 순수한 자가 대국은 우열 순환(dominance cycle)에 갇힐 수 있습니다. 해결책은 다양한 상대를 포함한 리그 플레이입니다.
표본 폭발(Sample explosion).n명의 에이전트 × 상태 공간 × 결합 행동의 곱이 커집니다. 함수 근사(function approximation)와 인수분해된 행동 공간(factored action space; 에이전트마다 별도의 정책 출력 헤드)을 사용해 근사적으로 다룹니다.
사용해보기
2026년 멀티 에이전트 강화 학습의 응용 지도(application map)는 다음과 같습니다.
영역
기법
비고
협력 내비게이션/조작(Cooperative navigation / manipulation)
MAPPO / QMIX
CTDE 기반; 공유 크리틱과 분산 액터(actor)를 함께 사용.
2인 게임(체스, 바둑, 포커)
MCTS를 곁들인 자가 대국(AlphaZero)
합이 0인 게임; 대칭 학습.
복잡한 멀티플레이어 게임(Dota, StarCraft)
리그 플레이 + 모방 사전학습(imitation pretraining)
OpenAI Five, AlphaStar.
자율주행 차량 함대
어텐션(attention)을 결합한 CTDE MAPPO / PPO
부분 관측; 가변 팀 크기.
경매 시장(Auction markets)
게임 이론적 균형 + 강화 학습
n → ∞일 때는 평균장 강화 학습(mean-field RL).
LLM 멀티 에이전트 시스템(Phase 16)
자연어 의사소통 + 역할 조건화
에이전트 계획 계층에서의 강화 학습 루프.
2026년 시점에서 멀티 에이전트 강화 학습의 가장 큰 성장 영역은 대규모 언어 모델 기반 시스템입니다. 언어 모델 에이전트들의 군집이 협상하고, 토론하고, 소프트웨어를 작성합니다. 강화 학습은 토큰 단위가 아니라 궤적(trajectory) 단위 출력에 대한 선호 최적화(preference optimization)로 등장합니다(Phase 16 · 03).
산출물 만들기
outputs/skill-marl-architect.md로 저장합니다.
---
name: marl-architect
description: Pick the right multi-agent RL regime (IPPO, CTDE, self-play, league) for a given task.
version: 1.0.0
phase: 9
lesson: 10
tags: [rl, multi-agent, marl, self-play]
---
Given a task with `n` agents, output:
1. Regime classification. Cooperative / adversarial / general-sum. Justify.
2. Algorithm. IPPO / MAPPO / QMIX / self-play / league. Reason tied to coupling tightness and reward structure.
3. Information access. Centralized training (what global info goes to the critic)? Decentralized execution?
4. Credit assignment. Counterfactual baseline, value decomposition, or reward shaping.
5. Exploration plan. Per-agent entropy, population-based training, or league.
Refuse independent Q-learning on tightly-coupled cooperative tasks. Refuse to recommend self-play for general-sum with cycle risks. Flag any MARL pipeline without a fixed-opponent eval (cherry-picked self-play numbers are common).
연습문제
쉬움. 2-에이전트 협력 그리드 월드에서 독립 Q 학습을 학습시켜 봅니다. 평균 누적 보상(mean return)이 0보다 커지기까지 몇 에피소드가 걸리나요? 두 에이전트의 결합 학습 곡선(joint learning curve)을 그래프로 그려 봅니다.
중간. "조정(coordination)" 과제를 추가합니다. 두 에이전트가 같은 턴(turn)에 동시에 목표 칸에 들어섰을 때만 성공으로 인정합니다. 독립 Q 학습은 여전히 수렴하나요? 무엇이 무너지나요?
어려움. MAPPO 방식의 학습을 위해 중앙집중 크리틱을 구현하고, 조정 과제에서 독립 PPO와 수렴 속도를 비교해 봅니다.
핵심 용어
용어
흔한 설명
실제 의미
마르코프 게임(Markov game)
"멀티 에이전트 MDP"
(S, A_1, …, A_n, P, R_1, …, R_n)이며, 각 에이전트가 자신의 보상을 가짐.
중앙집중 학습/분산 실행(CTDE)
"Centralized training, decentralized execution"
학습 시에는 결합 크리틱을 쓰고, 각 에이전트의 정책은 지역 관측만 사용.
독립 PPO(IPPO)
"Independent PPO"
각 에이전트가 PPO를 개별 실행. 단순한 기준선이지만 종종 과소평가됨.
멀티 에이전트 PPO(MAPPO)
"Multi-agent PPO"
전역 상태에 조건화된 중앙집중 가치 함수를 가진 PPO.
QMIX
"단조 가치 분해(Monotonic value decomposition)"
Q_tot = f_monotone(Q_1, …, Q_n)이며, 분산 argmax가 가능하도록 보장.