MARL — MADDPG, QMIX, MAPPO

다중 에이전트 협력의 강화학습(Reinforcement Learning) 유산은 2026년의 LLM 에이전트(LLM-agent) 시스템에도 여전히 영향을 미치고 있습니다. MADDPG(Lowe et al., NeurIPS 2017, arXiv:1706.02275)는 중앙 집중식 학습과 분산 실행(Centralized Training, Decentralized Execution; CTDE)이라는 개념을 처음 도입했습니다. 학습 도중에는 각 비평자(critic)가 모든 에이전트의 상태(state)와 행동(action)을 함께 보고, 테스트 시점에는 각 에이전트의 지역 행위자(local actor)만 실행됩니다. 협력적, 경쟁적, 혼합적 환경 모두에 적용됩니다. QMIX(Rashid et al., ICML 2018, arXiv:1803.11485)는 단조 혼합 네트워크(monotonic mixing network)를 사용하는 가치 분해(value decomposition) 기법입니다. 에이전트별 Q값이 결합되어 결합 Q값(joint Q)을 만들기 때문에 argmax가 깔끔하게 분산됩니다. 스타크래프트 다중 에이전트 챌린지(StarCraft Multi-Agent Challenge; SMAC)에서 최고 성능을 보였습니다. MAPPO(Yu et al., NeurIPS 2022, arXiv:2103.01955)는 중앙 집중식 가치 함수(centralized value function)를 사용하는 PPO입니다. 입자 세계(particle-world), SMAC, 구글 리서치 풋볼(Google Research Football), 하나비(Hanabi)에서 최소한의 튜닝만으로도 "놀랍게 효과적(surprisingly effective)"이었습니다. 이 알고리즘들은 분산적으로 행동해야 하는 에이전트 팀의 정책(policy)을 학습하는 토대가 됩니다. MAPPO는 2026년 협력형 MARL의 기본 기준선(default baseline)입니다. 이번 강의에서는 작은 격자 세계(grid-world) 장난감 예제에서 세 가지 알고리즘을 직접 만들어 보고, LLM 에이전트 학습에 손을 대기 전에 세 가지 아이디어를 몸에 익힙니다.

유형: Learn 언어: Python (표준 라이브러리, NumPy를 쓰지 않는 작은 구현) 선수 지식: Phase 09 (Reinforcement Learning), Phase 16 · 09 (병렬 Swarm과 네트워크형 아키텍처) 예상 시간: 약 90분

문제

LLM 에이전트 시스템은 에이전트 간 협력을 위한 정책을 점점 더 자주 학습합니다. 언제 작업을 위임(defer)할지, 언제 직접 행동(act)할지, 어떤 동료 에이전트(peer)를 호출(call)할지 같은 결정이 그 예입니다. 이러한 정책을 어떻게 학습할지 알려 주는 학문이 바로 다중 에이전트 강화학습(Multi-Agent Reinforcement Learning; MARL)입니다. MARL은 LLM 열풍보다 먼저 자리 잡았으며, 소수의 지배적인 알고리즘 묶음을 갖추고 있습니다.

패턴 어휘 없이 MARL 논문을 읽는 일은 고통스럽습니다. 중앙 집중식 학습과 분산 실행(CTDE), 가치 분해, 중앙 집중식 비평자(centralized critic)는 단순한 유행어가 아닙니다. 각각이 특정 문제에 대한 구체적인 답입니다.

  • 독립 강화학습(Independent RL), 즉 각 에이전트가 혼자 학습하는 방식은 각 에이전트의 관점에서 환경이 비정상적(non-stationary)으로 변합니다. 좋지 않습니다.
  • 중앙 집중식 강화학습(Centralized RL), 즉 하나의 에이전트가 전부 제어하는 방식은 확장되지 않으며 실행 시 제약(execution constraint)을 위반합니다.
  • CTDE는 두 방식의 장점을 모두 가져옵니다. 전역 정보(global information)로 학습하고, 지역 정책(local policy)으로 배포합니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.CTDE(중앙 집중식 학습, 분산 실행)는 독립 RL과 완전 중앙 집중 RL이 해결하지 못하는 어떤 문제를 해결하나요?

2.MAPPO가 2026년 기준 협력형 MARL의 '기본 기준선(default baseline)'으로 간주되는 이유는 무엇인가요?

0/2 답변 완료

개념

논문들이 사용하는 세 가지 환경

  • 입자 세계(Particle World, multi-agent particle env). 협력적/경쟁적 과제를 담은 단순한 2차원 물리 환경입니다. MADDPG의 원본 시험대(testbed)입니다.
  • 스타크래프트 다중 에이전트 챌린지(StarCraft Multi-Agent Challenge; SMAC). 협력적 마이크로 컨트롤(micro-management)과 부분 관찰(partial observation)이 특징입니다. QMIX의 시험대입니다. 행동(action)은 이산적이고 상태(state)는 연속적입니다.
  • Google Research Football, Hanabi, MPE. MAPPO의 기준선 실험에 사용됩니다.

환경마다 행동/관찰의 형식이 다릅니다. 알고리즘은 그에 맞춰 선택합니다.

MADDPG (2017) — CTDE 패턴

각 에이전트 i는 자기 관찰(observation)을 행동으로 매핑하는 행위자(actor) mu_i(o_i)를 가집니다. 또한 각 에이전트는 학습 도중 모든 관찰과 모든 행동을 함께 보는 비평자(critic) Q_i(x, a_1, ..., a_n)을 가집니다. 행위자는 비평자의 평가에 대한 정책 경사(policy gradient)로 갱신됩니다.

actor update:    grad_theta_i J = E[grad_theta mu_i(o_i) * grad_a_i Q_i(x, a_1..n) at a_i=mu_i(o_i)]
critic update:   TD on Q_i(x, a_1..n) given next-state joint estimate

왜 CTDE를 쓸까요? 학습 시점에는 모두의 행동을 알 수 있으니, 이를 사용해 각 비평자의 분산(variance)을 줄입니다. 배포 시점에는 각 에이전트가 o_i만 보고 mu_i(o_i)를 호출합니다.

실패 양상은 비평자의 입력이 에이전트 수 N과 함께 커진다는 점입니다(모든 행동이 입력에 포함됨). 근사 기법 없이 약 10개 에이전트를 넘기기 어렵습니다.

QMIX (2018) — 가치 분해

협력형 전용입니다. 전역 보상은 에이전트별 Q값의 단조 함수(monotone function)로 표현됩니다.

Q_tot(tau, a) = f(Q_1(tau_1, a_1), ..., Q_n(tau_n, a_n)),   df/dQ_i >= 0

단조성(monotonicity)이 보장되면 argmax_a Q_tot을 각 에이전트가 독립적으로 argmax_{a_i} Q_i를 선택하는 방식으로 계산할 수 있습니다. 이것이 바로 우리가 원하는 분산 실행 성질(decentralized execution property)입니다. 학습 시점에는 혼합 네트워크(mixing network)가 에이전트별 Q값에서 Q_tot를 만들어 냅니다.

QMIX가 SMAC에서 강한 이유는 협력형 스타크래프트 마이크로 컨트롤이 동질적(homogeneous) 에이전트, 지역 관찰, 전역 보상을 모두 갖추고 있어 가치 분해에 완벽히 들어맞기 때문입니다.

실패 양상은 단조성 제약이 지나치게 제한적(restrictive)이라는 점입니다. 어떤 과제는 보상 구조가 단조 분해(monotone decomposable) 가능하지 않습니다. 한 에이전트가 팀을 위해 희생하는 상황이 대표적입니다. QTRAN, QPLEX 같은 확장은 이를 완화합니다.

MAPPO (2022) — 과소평가된 기본기준

다중 에이전트 PPO(Multi-Agent PPO)입니다. 중앙 집중식 가치 함수를 사용하는 PPO죠. 각 에이전트는 자신의 정책을 갖고, 가치 함수는 공유하거나 에이전트별로 두되 전체 상태(full state)를 봅니다. Yu et al. 2022는 MAPPO를 MADDPG, QMIX, 그 확장 알고리즘들과 다섯 가지 벤치마크에서 비교했고 다음 사실을 발견했습니다.

  • MAPPO는 입자 세계, SMAC, Google Research Football, Hanabi, MPE에서 비정책(off-policy) MARL 기법들과 동등하거나 더 나은 성능을 보입니다.
  • 하이퍼파라미터 튜닝(hyperparameter tuning)이 거의 필요 없습니다.
  • 학습이 안정적이며, 서로 다른 시드(seed) 사이에서도 재현 가능합니다.

이 논문이 나오기 전까지 학계는 정책 기반(on-policy) MARL을 과소평가하고 있었습니다. 2026년에는 MAPPO가 협력형 MARL의 기본 기준선이며, 새로운 기법은 우선 이것을 이겨야 의미가 있습니다.

LLM 에이전트 엔지니어가 관심을 가져야 하는 이유

직접적인 활용처는 세 가지입니다.

  1. 라우터 학습(Router training). 메타 에이전트(meta-agent)가 어떤 하위 에이전트(sub-agent)가 작업을 처리할지 선택합니다. N개의 분산 하위 에이전트와 하나의 중앙 집중식 라우터가 있는 전형적인 MARL 문제이며, MAPPO가 잘 맞습니다.
  2. 역할 출현(Role emergence). 생성형 에이전트 시뮬레이션(generative-agent simulation)에서 시간이 지나며 서로를 보완하는 역할을 자연스럽게 채택하도록 학습시키는 일은 사실상 MARL 문제입니다. QMIX 계열의 가치 분해는 보완성을 구조적으로 강제합니다.
  3. 다중 에이전트 도구 사용(Multi-agent tool use). 에이전트들이 도구(tool)를 공유하고 예산(budget)을 두고 경쟁할 때, CTDE로 학습하면 자원 제약을 존중하는 배포 가능한 지역 정책을 얻을 수 있습니다.

실용적인 단서도 하나 있습니다. 2026년 대부분의 프로덕션 LLM 에이전트 시스템은 정책을 학습시키기보다 프롬프트(prompt)로 정의합니다. MARL은 (a) 풍부한 상호작용 데이터, (b) 명확한 보상 신호(reward signal), (c) 학습 인프라에 투자할 의지가 모두 갖춰졌을 때 비로소 의미가 있습니다.

강화학습을 넘어선 설계 패턴으로서의 CTDE

학습을 하지 않더라도 CTDE는 유용한 아키텍처 패턴입니다.

  • 설계(design) 단계에서는 팀 전체의 가시성을 가정합니다.
  • *런타임(runtime)*에는 분산 실행을 강제합니다. 각 에이전트는 o_i만 봅니다.

이 패턴은 에이전트별 상태를 명시적으로 유지하게 만들고, 부분 관찰성을 설계 초기에 고민하도록 강제합니다. 많은 프로덕션 다중 에이전트 시스템은 어느 시점에서나 공유 상태(shared state)를 암묵적으로 가정하곤 하는데, CTDE라는 규율이 이를 막아 줍니다.

비정상성 문제

여러 에이전트가 동시에 학습하면, 각 에이전트의 환경은 다른 에이전트의 정책을 포함하므로 비정상적(non-stationary)으로 변합니다. 단일 에이전트 강화학습의 고전적인 수렴 증명들이 깨집니다. 이 강의에서 다루는 MARL 알고리즘은 모두 이 문제를 정면으로 다룹니다.

  • MADDPG: 전역 비평자가 모든 행동을 보므로 가치 추정이 안정적(stationary)으로 유지됩니다.
  • QMIX: 가치 분해가 학습을 결합 Q 공간으로 옮겨, 최적성(optimality)을 명확히 정의할 수 있게 만듭니다.
  • MAPPO: 중앙 집중식 가치 함수가 다른 에이전트의 정책 변화에서 오는 분산을 완화(dampen)합니다.

LLM 에이전트 시스템에서 비정상성은 "지난달까지는 잘 동작하던 내 에이전트가, 상류(upstream)의 다른 에이전트가 바뀐 뒤로 오작동한다"는 형태로 나타납니다. CTDE로 MARL을 학습시키는 것이 원칙에 부합하는 해결책이며, 프롬프트 수준의 임시 수정은 더 빠르지만 오래 가지 못합니다.

이 강의가 다루지 않는 것

실제 신경망을 학습시키는 일은 Phase 09의 주제입니다. 이 강의는 경사 갱신(gradient update) 없이도 CTDE, 가치 분해, 중앙 집중식 가치 패턴을 보여 주는 스크립트 정책(scripted policy) 버전을 만듭니다. 목표는 본격적인 MARL 라이브러리(PyMARL, MARLlib, RLlib multi-agent)를 들기 전에 패턴 자체를 몸에 익히는 것입니다.

직접 만들기

code/main.py는 작은 2 에이전트 협력형 격자 세계에서 세 가지 패턴 시연을 구현합니다.

  • 환경: 4x4 격자 위의 에이전트 두 명, 보상 펠릿(reward pellet) 두 개입니다. 각 에이전트가 펠릿을 하나씩 수집하고, 모든 펠릿이 사라지면 과제가 끝납니다.
  • IndependentAgents — 각 에이전트는 다른 에이전트를 단순한 환경의 일부로 취급합니다. 기준선입니다.
  • MADDPGStyle — 중앙 집중식 비평자가 결합 가치(joint value)를 계산하고, 행위자 정책은 그 값을 기반으로 갱신됩니다. 스크립트 형태의 정책 개선입니다.
  • QMIXStyle — 단조 혼합기를 사용한 가치 분해입니다.
  • MAPPOStyle — 중앙 집중식 가치 함수를 사용하며, 정책은 공유 기준값(shared baseline)에 대해 갱신됩니다.

네 방식 모두 같은 에피소드(episode)를 실행하고, 평균적인 목표 도달 단계 수(steps-to-goal)를 보고합니다. CTDE 계열은 독립 기준선보다 더 짧은 경로(path)로 수렴(converge)합니다.

다음 명령으로 실행합니다.

python3 code/main.py

예상 출력은 독립 에이전트가 평균 약 3.2 단계, CTDE 계열이 약 2.7 단계로 수렴한다는 것입니다. 스크립트 정책만으로도 중복 동작(duplicate effort)을 줄이는 패턴 차이가 드러납니다.

사용해보기

outputs/skill-marl-picker.md는 주어진 다중 에이전트 과제에 맞는 MARL 알고리즘을 골라 주는 스킬(skill)입니다. 협력형인지 경쟁형인지, 동질적인지 이질적인지(heterogeneous), 행동 공간(action space)의 종류, 규모(scale), 보상 신호의 형태를 함께 고려합니다.

배포 전 확인

프로덕션에서 MARL을 쓰는 경우는 드뭅니다. 그래도 사용한다면 다음을 확인합니다.

  • MAPPO부터 시작합니다(Start with MAPPO). 2022년 논문이 이를 기본 기준선으로 세웠습니다. 먼저 MAPPO를 재현해 두면 더 화려한 기법을 좇느라 몇 주를 낭비하지 않습니다.
  • 모든 에이전트의 관찰과 행동 스트림을 로그로 남깁니다(Log every agent's observation and action stream). 에이전트별 추적 정보(trace) 없이 MARL을 디버깅(debug)하는 일은 사실상 불가능합니다.
  • 학습 코드와 실행 코드를 분리합니다(Separate training code from execution code). CTDE는 일종의 규율입니다. 실행 경로가 정말로 o_i만 보도록 강제해야 합니다.
  • 보상 설계 경고(Reward shaping warning). MARL은 보상 설계에 극도로 민감합니다. 보상 설계에 협력 관련 버그가 하나라도 있으면 에이전트들은 그것을 악용(exploit)하도록 학습합니다. 적대적 테스트(adversarial test)를 반드시 돌립니다.
  • LLM 에이전트의 경우(For LLM agents) 먼저 프롬프트 수준의 정책을 고려합니다. 상호작용 데이터, 보상 신호, 인프라가 모두 갖춰진 경우에만 MARL 학습에 투자합니다.

연습문제

  1. code/main.py를 실행합니다. 독립 에이전트와 MAPPO 스타일 에이전트의 목표 도달 단계 차이를 측정합니다. 6x6 격자에서는 그 차이가 커집니까, 작아집니까?
  2. 경쟁형 변형을 구현합니다. 두 에이전트, 하나의 펠릿, 먼저 도달한 에이전트만 보상을 받는 설정입니다. 어떤 패턴이 경쟁 상황을 깔끔하게 다룹니까? 역사적으로는 MADDPG입니다.
  3. MADDPG(arXiv:1706.02275) Section 3을 읽습니다. 정확한 비평자 갱신 규칙을 자기 말로 정리해 의사 코드(pseudocode)로 구현합니다.
  4. MAPPO(arXiv:2103.01955) 논문을 읽습니다. 저자들은 왜 중앙 집중식 가치 함수와 PPO 조합이 벤치마크에서 비정책 MARL을 이긴다고 주장합니까? 가장 강한 주장 세 가지를 정리합니다.
  5. 가상의 LLM 에이전트 시스템(연구 에이전트 + 요약자 + 코더)에 CTDE를 설계 패턴으로 적용해 봅니다. 설계 시점에는 활용 가능하지만 런타임에는 활용할 수 없는 결합 정보(joint information)는 무엇입니까?

핵심 용어

용어흔한 설명실제 의미
MARL"다중 에이전트 강화학습(Multi-Agent RL)"다중 에이전트 시스템을 위한 강화학습이다.
CTDE"중앙 집중식 학습, 분산 실행(Centralized Training, Decentralized Execution)"전역 정보로 학습하고 지역 정책으로 배포한다.
MADDPG"다중 에이전트 DDPG(Multi-Agent DDPG)"모든 관찰과 행동을 보는 에이전트별 비평자를 가진 CTDE 알고리즘이다.
QMIX"가치 분해(Value decomposition)"에이전트별 Q값의 단조 혼합. 협력형 전용이다.
MAPPO"다중 에이전트 PPO(Multi-Agent PPO)"중앙 집중식 가치 함수를 가진 PPO. 2026년 기본 기준선이다.
가치 분해(Value decomposition)"개별 Q값의 합"결합 Q를 에이전트별 Q의 단조 함수로 표현한다.
비정상성(Non-stationarity)"움직이는 표적(moving targets)"다른 에이전트가 학습하면서 각 에이전트의 환경이 변하는 현상이다. MARL의 핵심 문제다.
정책 기반/비정책(On-policy / off-policy)"현재 정책에서 학습 / 리플레이에서 학습"PPO는 정책 기반(MAPPO), DDPG와 Q-learning은 비정책이다.
SMAC"스타크래프트 다중 에이전트 챌린지(StarCraft Multi-Agent Challenge)"협력형 마이크로 컨트롤 벤치마크. QMIX의 본거지(home ground)다.

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

marl-picker

Choose a MARL algorithm (MADDPG, QMIX, MAPPO, IQL, or extensions) for a given multi-agent task. Consider cooperative vs competitive, action-space type, heterogeneity, reward structure, and scale.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.QMIX는 혼합 함수(mixing function)가 단조(monotonic, df/dQ_i >= 0)일 것을 요구합니다. 이 단조성 제약이 제공하는 실용적 이점은 무엇인가요?

2.LLM 에이전트 시스템이 지난달까지 잘 동작했는데, 상류(upstream) 에이전트가 업데이트된 후 하류 에이전트가 오류를 내기 시작했습니다. 어떤 MARL 개념이 이를 설명하고, 원칙에 부합하는 해결책은 무엇인가요?

3.신경망을 학습시키지 않더라도 CTDE는 LLM 에이전트 시스템의 설계 패턴으로 유용합니다. 이것이 강제하는 것은 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다