마음 이론(Theory of Mind)과 창발적 조정(Emergent Coordination)
Li 외(arXiv:2310.10701)는 협력형 텍스트 게임(cooperative text game)에서 LLM 에이전트가 고차 마음 이론의 창발(emergent high-order Theory of Mind; ToM), 즉 다른 에이전트가 제3의 에이전트의 믿음에 대해 무엇을 믿는지 추론(reasoning)하는 능력을 보인다는 점을 입증했습니다. 다만 컨텍스트 관리(context management)와 환각(hallucination) 때문에 장기 계획(long-horizon planning)에서는 실패합니다. Riedl(arXiv:2510.05174)은 집단 규모(population-scale)로 고차 시너지(higher-order synergy)를 측정했고, 오직 ToM 프롬프트(ToM prompt) 조건에서만 정체성에 결합된 분화(identity-linked differentiation)와 목표 지향적 보완성(goal-directed complementarity)이 나타난다는 사실을 발견했습니다. 용량(capacity)이 낮은 LLM에서는 가짜 창발(spurious emergence)만 관찰됩니다. 즉 조정의 창발은 공짜로 얻어지는 것이 아니라 프롬프트 조건부(prompt-conditional)이며 모델 의존적(model-dependent)입니다. 이 강의는 최소한의 ToM 인식(ToM-aware) 에이전트를 구현하고, ToM 프롬프트가 있는 경우와 없는 경우의 협력 과제를 실행한 뒤, Riedl 2025 프로토콜에 따라 조정 효과의 차이(coordination delta)를 측정합니다.
유형: Learn + Build
언어: Python (stdlib)
선수 지식: Phase 16 · 07 (마음 사회와 멀티 에이전트 토론(Society of Mind and Debate)), Phase 16 · 17 (생성 에이전트(Generative Agents))
예상 시간: 약 75분
문제
멀티 에이전트 조정(multi-agent coordination)은 종종 마법처럼 보입니다. 에이전트들이 일을 나누고, 서로의 행동을 예측하며, 중복을 피합니다. 그러나 대부분의 경우 이런 "창발(emergence)"은 프롬프트 엔지니어링(prompt engineering)이 만들어낸 인공물(artifact)일 뿐입니다. 누군가 에이전트에게 "협력하라(coordinate)"고 지시했기 때문에 조정이 일어나는 것이며, 그 프롬프트를 제거하면 조정도 사라집니다.
Riedl의 2025년 연구 결과는 더 엄격합니다. 통제된 조건에서 조정은 에이전트가 다른 에이전트의 마음(ToM)에 대해 추론하도록 프롬프트되었을 때에만 창발합니다. ToM 프롬프트가 없으면 강력한 모델조차 통계적 통제를 견뎌내는 조정 패턴을 보여주지 못합니다. 이 점은 실제 운영(production) 환경에서 중요합니다. 많은 팀이 프롬프트에 종속적이고 취약한(brittle) 동작을 "멀티 에이전트 조정" 기능으로 출시하기 때문입니다.
이 강의는 ToM을 특정한 능력, 즉 믿음에 대한 믿음(beliefs about beliefs)을 추론하는 능력으로 다룹니다. 최소한의 ToM 인식 에이전트를 만들고, 진짜 조정과 프롬프트로 그럴듯하게 포장된 조정(prompt dressing)이 어떻게 다른지를 측정합니다.
개념
마음 이론이란 무엇인가
발달 심리학(developmental psychology)에서 3세 아이는 모든 사람의 내면 세계(inner world)가 자신과 같다고 생각합니다. 5세 아이는 다른 사람이 자신과 다른 믿음(belief)을 가질 수 있다는 사실을 이해합니다. 7세 아이는 믿음에 대한 믿음을 추론하기 시작합니다. 예를 들어 "그녀는 내가 공이 컵 아래에 있다고 생각한다고 믿는다(she thinks that I think the ball is under the cup)" 같은 추론입니다. 이것이 각각 0차(zeroth-order), 1차(first-order), 2차(second-order) 마음 이론입니다.
LLM 에이전트에서는 ToM의 차수(order)를 다음과 같이 대응시킬 수 있습니다.
- 0차(Zeroth-order): 다른 에이전트에 대한 모델이 없습니다. 자신의 관측(observation)만 보고 행동합니다.
- 1차(First-order): 각 상대 에이전트의 믿음에 대한 모델을 가집니다. 예: "앨리스는 X를 믿는다(Alice believes X)."
- 2차(Second-order): 재귀적 믿음을 모델링합니다. 예: "앨리스는 밥이 X를 믿는다고 믿는다(Alice believes that Bob believes X)."
Li 외(2023)는 협력 게임의 LLM 에이전트에서 1차와 2차 ToM이 창발하지만, 긴 시간 범위(long horizon)와 신뢰할 수 없는 통신(unreliable communication) 조건에서는 성능이 저하된다는 사실을 발견했습니다.
샐리-앤 검사(Sally-Anne test) 요약
1985년에 제안된 거짓 믿음 검사(false-belief test)입니다. 샐리(Sally)가 구슬(marble)을 바구니 A에 넣고 자리를 비웁니다. 앤(Anne)이 그 구슬을 바구니 B로 옮깁니다. 샐리가 돌아오면 어디를 들여다볼까요? 1차 ToM이 있는 아이는 바구니 A라고 답합니다. 샐리의 믿음이 현실과 다르기 때문입니다. ToM이 아직 발달하지 않은 아이는 바구니 B라고 답합니다.
GPT-4 세대 LLM은 샐리-앤 형식의 검사가 평이하게(plain) 제시되면 통과합니다. 그러나 서사(narrative)가 길어지거나, 장면(scene)이 여러 번 바뀌거나, 질문이 간접적으로 표현되면 실패합니다. 이것이 2026년 시점에서 운영 환경 LLM이 보여주는 ToM의 실용적 수준입니다.
Riedl의 조정 측정 방법
Riedl(arXiv:2510.05174)은 집단 규모의 검증 환경을 구축했습니다. N개의 에이전트, 협력적 목표(cooperative objective), 그리고 가변적인 프롬프트 조건을 둡니다. 측정 항목은 다음과 같습니다.
- 정체성에 결합된 분화(Identity-linked differentiation). 에이전트들이 시간이 흐르면서 안정적인 역할 구분(stable role distinction)을 발전시키는가?
- 목표 지향적 보완성(Goal-directed complementarity). 에이전트의 행동이 서로 중복되지 않고 보완적으로 다른 하위 과제(subtask)를 맡는가?
- 고차 시너지(Higher-order synergy). 어떤 부분 집합(subset)으로도 달성할 수 없는 결과를 집단이 달성하는지를 보는 통계적 척도입니다.
결과는 분명합니다. ToM 프롬프트 조건에서만 세 지표가 모두 기준선(baseline) 위의 신호를 냅니다. ToM 프롬프트가 없으면 중간 용량(moderate-capacity) 모델의 지표는 우연 수준(chance)에 머뭅니다. 대형 모델은 명시적인 ToM 프롬프트 없이도 약간의 조정을 보이지만, 명시적인 프롬프트 조건보다 효과가 작습니다.
조정의 환상(Coordination illusion)
통계적 통제 없이 데모(demo)에서 보이는 "창발적 조정"은 다음을 반영하는 경우가 많습니다.
- 조정을 미리 박아 넣은(baked in) 프롬프트 엔지니어링. 예: "함께 일하라(work together)"가 적힌 시스템 프롬프트.
- 관찰자 편향(observer bias). 우리는 기대하는 패턴을 보게 됩니다.
- 성공한 실행만을 사후적으로 골라내기(post-hoc selection).
측정 가능한 신호 없이 "창발적 조정"을 마케팅하는 운영 시스템은 마케팅으로 간주해야 합니다. 주장하기 전에 측정합니다.
최소한의 ToM 인식 에이전트
구조는 다음과 같습니다.
agent state:
own_beliefs: {facts the agent believes}
other_models: {other_agent_id -> {beliefs_the_agent_attributes_to_them}}
actions_last_N: [history of others' actions]
observation update:
- update own_beliefs from direct observation
- update other_models[agent_id] from their action + prior beliefs
action selection:
- enumerate candidate actions
- for each, predict what each other agent will do next given their modeled beliefs
- pick action that maximizes joint outcome under those predictions
other_models 속성(attribute)이 바로 ToM 상태입니다. 1차 ToM은 한 단계만 유지합니다. 2차 ToM은 other_models[i][other_models_of_j], 즉 "내가 생각하기에 에이전트 i가 에이전트 j의 믿음을 어떻게 모델링하는가"를 추가로 보관합니다.
왜 긴 시간 범위에서 어려워지는가
Li 외는 컨텍스트 한계(context limit) 때문에 에이전트가 어떤 믿음이 누구의 것인지 잊어버린다고 보고했습니다. 환각은 다른 에이전트 모델에 거짓 믿음(false belief)을 추가합니다. 두 현상 모두 시간이 지날수록 누적되는(compounding) "내가 그가 X를 생각한다고 생각했다(I thought he thought X)" 종류의 오류를 만들어냅니다.
논문과 2024-2026년의 후속 연구(follow-up)에서 정리된 완화 방법(mitigations)은 다음과 같습니다.
- 프롬프트 안의 명시적 ToM 상태(explicit ToM state).
{agent_id: belief_list} 같은 구조화된 형식을 사용해, 정체성과 믿음의 결합(identity-belief binding)을 보존하도록 검색(retrieval)을 강제합니다.
- 짧은 추론 사슬(reasoning chain). 매 턴(turn)마다 ToM을 갱신(update)하는 횟수를 줄이면 누적되는 환각이 줄어듭니다.
- 외부 ToM 저장소(external ToM store). 모델을 LLM 컨텍스트 밖에 유지하고, 매 턴 관련 부분만 주입합니다.
운영 환경에서 ToM이 실패하는 지점
- 적대적 상황(adversarial settings). ToM이 뛰어난 에이전트는 더 쉽게 조작(manipulate)됩니다. 상대가 "이 에이전트가 나에 대해 무엇을 모델링하는지"를 다시 모델링한 뒤 악용할 수 있기 때문입니다.
- 이질적인 팀(heterogeneous teams). 모델이 서로 다르면, 한 상대에게 맞춰진 ToM 모델이 다른 상대에게는 일반화(generalize)되지 않습니다.
- 사실에 의존하는 과제(ground-truth-dependent tasks). ToM은 믿음에 관한 능력입니다. 정답이 사실(fact)에 의해 결정되는 과제에서는 ToM이 오히려 주의를 분산시키는(distraction) 요소가 될 수 있습니다.
실제로 측정할 수 있는 조정
팀의 조정이 프롬프트로 포장된 것이 아니라 실제로 일어나고 있는지 확인할 수 있는 실용적 신호 세 가지입니다.
- 시간에 걸친 보완성(complementarity over time). 여러 턴으로 이어지는 과제에서, 에이전트들의 행동이 서로 다른 하위 과제를 분담합니까?
- 예측(anticipation). 턴 T+1에서 에이전트 A의 행동이 턴 T+2에서 B가 취할 행동에 대한 예측에 의존했고, 그 예측이 맞았습니까?
- 수정(correction). 턴 T에서 A가 B의 믿음을 잘못 읽었을 때, 턴 T+2까지 그 오해가 수정됩니까?
로그가 남는 멀티 에이전트 시스템이라면 위 세 가지 모두 측정할 수 있습니다. 이것이 "조정"이라는 서사의 실체 있는 버전입니다.
직접 만들기
code/main.py는 다음을 구현합니다.
ToMAgent — 자기 자신의 믿음과 상대별 믿음 모델(per-other-agent belief model)을 추적합니다.
- 협력 과제 — 세 명의 에이전트가 세 개의 상자(box)에서 토큰(token) 세 개를 모아야 합니다. 각 상자에는 토큰이 하나 들어 있습니다. 에이전트는 통신할 수 없으며, 서로의 움직임(movement)만 관측합니다.
- 두 가지 설정 —
zeroth_order(ToM 없음)와 first_order(한 단계의 믿음 모델을 가진 ToM).
- 측정 — 무작위 시드로 진행한 200회의 시행(trial)에서 완료율(completion rate), 중복률(duplication rate, 두 에이전트가 같은 상자를 노린 경우), 완료까지 걸린 평균 턴 수(average turns to completion)를 측정합니다.
실행합니다.
python3 code/main.py
예상 출력은 다음과 같습니다. 0차 에이전트는 약 35%의 중복률을 보이고 10턴 안에 약 60%의 시행을 완료합니다. 1차 ToM 에이전트는 중복률이 약 5%로 떨어지고 완료율은 약 95%에 도달합니다. 이 차이가 측정 가능한 조정 효과입니다.
사용해보기
outputs/skill-tom-auditor.md는 어떤 멀티 에이전트 시스템이 "창발적 조정"을 주장할 때 그 주장을 감사(audit)하는 스킬(skill)입니다. 프롬프트 포장, 대조 조건(control)을 기준으로 한 통계적 유의성, 측정된 보완성을 점검합니다.
배포 전 확인
조정 주장을 검증하기 위한 점검 항목입니다.
- 대조 조건(control condition). 조정을 유도하는 프롬프트를 제거한 버전을 둡니다. 두 버전 모두를 측정합니다.
- 통계 검정(statistical test). 시스템과 대조 조건 사이의 차이가 해당 지표에서
p < 0.05로 유의합니까?
- 보완성 척도(complementarity measure). 최종 성공 여부만 보지 말고, 시간에 걸친 행동의 분리도(action-disjointness)를 봅니다.
- 실패 사례 로그(failure-case log). 에이전트들이 잘못 조정(miscoordinate)할 때 ToM 상태가 어떻게 생겼는지 기록합니다.
- 모델 용량 공개(model-capacity disclosure). 작은 모델에서 효과가 사라진다면 그 사실을 명시합니다.
연습문제
- (쉬움)
code/main.py를 실행합니다. 1차 ToM이 중복률을 약 7배 줄이는지 확인합니다. 에이전트와 상자를 각각 5개로 늘리면 그 차이가 유지됩니까?
- (중간) 2차 ToM(에이전트 A가 B가 C에 대해 무엇을 생각하는지 모델링)을 구현합니다. 1차보다 개선됩니까? 어떤 과제에서 그렇습니까?
- (중간) ToM 상태에 환각을 주입합니다. 매 턴 무작위로 믿음 하나를 뒤집습니다. 1차 성능이 얼마나 저하됩니까?
- (어려움) Li 외(arXiv:2310.10701)를 읽고 "장기 시간 범위에서의 성능 저하(long-horizon degradation)" 결과를 재현합니다. 턴 수가 10에서 30으로 늘어날 때 1차 ToM 성능은 어떻게 변합니까?
- (어려움) Riedl 2025(arXiv:2510.05174)를 읽고, 시뮬레이션 로그에 고차 시너지 통계량(higher-order synergy statistic)을 구현합니다. ToM 프롬프트 조건이 없어도 효과가 나타납니까?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| 마음 이론(Theory of Mind) | "다른 사람의 마음을 이해하는 것" | 다른 에이전트의 믿음을 모델링하는 능력이다. 차수(0, 1, 2+)로 등급을 매긴다. |
| 샐리-앤 검사(Sally-Anne test) | "거짓 믿음 검사" | 1985년 발달 심리학 실험. LLM은 평이한 버전은 통과하지만 복잡한 버전에서는 실패한다. |
| 1차 ToM(First-order ToM) | "A는 X를 믿는다" | 다른 에이전트 하나의 사실에 대한 믿음을 모델링하는 것이다. |
| 2차 ToM(Second-order ToM) | "A는 B가 X를 믿는다고 믿는다" | 한 단계 더 깊은 재귀적 믿음 모델링이다. |
| 정체성에 결합된 분화(Identity-linked differentiation) | "시간에 걸쳐 안정적인 역할" | Riedl의 지표. 역할이 무작위가 아니라 지속적으로 나타나는지를 본다. |
| 목표 지향적 보완성(Goal-directed complementarity) | "서로 다른 행동을 한다" | 에이전트들이 같은 하위 과제가 아니라 서로 다른 하위 과제를 맡는지를 본다. |
| 고차 시너지(Higher-order synergy) | "집단이 어떤 부분 집합보다 낫다" | 실제 조정을 판별하는 Riedl의 통계적 척도다. |
| 조정의 환상(Coordination illusion) | "조정된 것처럼 보인다" | 측정 가능한 신호 없이 프롬프트로 포장된 조정처럼 보이는 현상이다. |
더 읽을거리