투표, 자기 일관성(Self-Consistency)과 토론 토폴로지(Debate Topology)

가장 값싼 집계(aggregation) 방법은 독립적인 에이전트 N개를 표본추출(sample)해 다수결(majority vote)로 결정하는 것입니다. Wang et al. 2022의 자기 일관성(self-consistency)은 하나의 모델을 N번 표본추출하는 방식으로 이를 구현했습니다. 멀티 에이전트(multi-agent)는 단일 문화(monoculture)에서 벗어나기 위해 이를 이질적(heterogeneous) 에이전트로 확장합니다. 서로 다른 모델, 서로 다른 프롬프트, 서로 다른 온도(temperature), 서로 다른 문맥(context)을 쓰는 방식입니다. 다수결을 넘어서면 토론 토폴로지(debate topology)가 중요해집니다. MultiAgentBench(arXiv:2503.01935, ACL 2025)는 star / chain / tree / graph 협응(coordination)을 평가했고, 연구(research) 과제에서는 graph가 가장 좋다는 결과를 보였습니다. 다만 에이전트가 약 4개를 넘으면 "조정 비용(coordination tax)"이 나타납니다. AgentVerse(ICLR 2024)는 두 가지 창발적 패턴(emergent pattern), 즉 자원(volunteer) 행동과 동조(conformity) 행동을 문서화합니다. 동조는 기능(합의를 찾는 능력)이기도 하고 위험(집단 사고; groupthink, Lesson 24)이기도 합니다. 이 강의는 토폴로지 공간을 매핑하고, 각 변형(variant)을 만들며, 조정 비용을 측정합니다.

유형: Learn + Build 언어: Python (stdlib) 선수 지식: Phase 16 · 07 (Society of Mind와 멀티 에이전트 토론), Phase 16 · 14 (에이전트를 위한 합의와 Byzantine Fault Tolerance) 예상 시간: 약 75분

문제

토론(debate)은 정확도를 높일 수 있습니다(Du et al., arXiv:2305.14325). 반대로 정확도를 떨어뜨릴 수도 있습니다. 토론이 도움이 될지 여부는 네 가지 구조적 선택에 달려 있습니다.

누가 누구와 말하는가(토폴로지; topology).
몇 회차(round)를 수행하는가 (Du 2023: 회차 수와 에이전트 수는 서로 독립적으로 중요합니다).
에이전트가 이질적인가 (서로 다른 기반 모델이 단일 문화를 깨뜨립니다).
적대적 목소리(adversarial voice)가 존재하는가 (정당한 반론을 만드는 강한 반박; steel-manning과 일부러 약한 허수아비를 세우는 straw-manning의 차이).

"에이전트 5개를 돌리고 투표한다"를 그대로 과제에 붙이는 팀은 단일 에이전트보다 오히려 성능이 후퇴(regress)하는 경우가 많습니다. 실패는 무작위가 아닙니다. 토폴로지와 이질성을 따라갑니다. 이 강의는 그 토폴로지 지도입니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.자기 일관성(self-consistency, Wang et al. 2022)의 주요 한계점으로, 멀티 에이전트 투표가 해결하는 것은 무엇인가요?

2.MultiAgentBench(MARBLE)에 따르면, 연구(research) 과제에서 가장 우수한 토폴로지는 무엇이며 그 이유는 무엇인가요?

0/2 답변 완료

개념

자기 일관성(Self-Consistency), 단일 모델 기준선

Wang et al. 2022("Self-Consistency Improves Chain of Thought Reasoning")는 동일한 모델을 온도(temperature) 0보다 큰 값에서 N번 표본추출한 뒤, 추론 경로(reasoning path)별 답에 다수결을 적용했습니다. GSM8K에서의 결과는 상당한 개선이었습니다. N=40 표본이 단일 그리디 디코딩(single greedy decode)보다 훨씬 나았습니다. 자기 일관성은 멀티 에이전트 투표의 단일 에이전트 선례입니다.

한계는 분명합니다. 자기 일관성은 하나의 기반 모델(base model)을 사용합니다. 오류는 구조적으로 상관관계를 갖게 됩니다. 모델에 체계적 편향(systematic bias)이 있으면 N개 표본이 모두 그 편향을 공유합니다.

멀티 에이전트 투표, 이질적 확장

N개의 표본을 N개의 서로 다른 에이전트로 바꿉니다. 서로 다른 기반 모델(Claude, GPT, Llama), 서로 다른 프롬프트, 서로 다른 도구 접근(tool access)을 사용합니다. 이점은 상관관계가 없는(uncorrelated) 오류입니다. 비용은 에이전트마다 호출 비용이 다르고 협응 오버헤드(coordination overhead)가 생긴다는 점입니다.

이질적 토론의 2026년 표준 명칭(canonical name)은 A-HMAD입니다. Adversarial Heterogeneous Multi-Agent Debate의 약자입니다. 완전히 보편화된 용어는 아니지만, 논문들은 "서로 다른 모델이 토론하여 단일 문화 붕괴(monoculture collapse)에서 오는 상관 오류를 줄인다"는 의미로 이 용어를 사용합니다.

네 가지 토폴로지

star                chain               tree                graph

    ┌─A─┐           A─B─C─D         ┌──A──┐              A───B
    │   │                           │     │              │ × │
    B   C                           B     C              D───C
    │   │                          / \   / \
    D   E                         D   E F   G           (fully connected)

Star: 하나의 허브(hub)가 있고, 나머지는 허브하고만 대화합니다. 후방 채널(back-channel)이 없는 감독자-작업자(supervisor-worker) 구조와 동일합니다. Chain: 선형 구조입니다. 각 에이전트는 직전 에이전트의 출력을 봅니다. 파이프라인(pipeline)과 비슷합니다. Tree: 계층형입니다. 계층적 에이전트 시스템(Lesson 06)에서 사용됩니다. Graph: 모든 노드가 서로 연결되는(any-to-any) 구조입니다. 완전 연결 클리크(fully-connected clique)와 임의 방향 비순환 그래프(arbitrary DAG)를 포함합니다.

조정 비용(Coordination Tax, MultiAgentBench)

MultiAgentBench(MARBLE, ACL 2025, arXiv:2503.01935)는 연구, 코딩, 계획(planning)을 포함한 과제 묶음(task suite)에서 star, chain, tree, graph를 벤치마크했습니다. 주요 측정 결과는 다음과 같습니다.

Graph 토폴로지는 연구 과제에서 이깁니다. 정보가 모든 노드 사이를 흐르고, 에이전트가 서로를 비판(critique)할 수 있습니다.
Star는 빠른 사실(factual) 응답 과제에서 이깁니다. 허브가 걸러내고(filter) 정리합니다(consolidate).
Chain은 단계적 파이프라인(stepwise pipeline; staged refinement)에서 이깁니다.
조정 비용은 graph 토폴로지에서 에이전트가 약 4개를 넘으면 나타납니다. 실시간(wall-clock) 지연과 토큰 비용이 품질보다 빠르게 증가합니다.

4-에이전트 상한은 경험적(empirical) 값이지 본질적(fundamental) 한계는 아닙니다. 2026년 LLM 문맥 용량(context capacity)을 반영합니다. 각 에이전트의 문맥이 동료(peer)들의 출력으로 가득 차고, 모두가 모두를 볼 수 있게 된 뒤에는 에이전트 N+1을 추가할 때의 한계 가치(marginal value)가 급격히 떨어집니다.

멀티 에이전트 토론 전략 ("Should we be going MAD?")

arXiv:2311.17371은 2023년 MAD(Multi-Agent Debate) 전략 서베이입니다. 다른 연구에서도 반복적으로 확인된 핵심 결과는 이렇습니다. 자기 일관성과 구조적으로 유사한 MAD 변형, 즉 독립 표본추출 + 집계 방식은 같은 예산(budget) 조건에서는 자기 일관성보다 못한 경우가 많습니다. MAD가 가장 도움이 되는 경우는 에이전트가 정말로 이질적이고, 토론에 적대적 구조가 있을 때입니다. 예를 들어 한 에이전트가 반대 입장을 맡는 구조입니다.

AgentVerse 창발적 패턴

AgentVerse(ICLR 2024, https://proceedings.iclr.cc/paper_files/paper/2024/file/578e65cdee35d00c708d4c64bce32971-Paper-Conference.pdf)는 명시적으로 설계하지 않아도 멀티 에이전트 토론에서 발현되는 두 가지 행동을 문서화합니다.

자원(Volunteer). 에이전트가 "다음 단계를 제가 맡겠습니다(I can take the next step)"처럼 자발적으로 돕겠다고 제안합니다. 유용한 이유는 하위 과제(subtask)에 가장 역량 있는 에이전트로 작업을 할당하기 때문입니다.
동조(Conformity). 비판자(critic)가 틀린 경우에도 에이전트가 자기 입장(stance)을 비판자에 맞춰 조정합니다. 이는 토론판 아첨(sycophancy, Lesson 14)입니다.

동조 때문에 합의가 날 때까지 무한히 진행하는 토론(debate-until-agreement)은 목소리가 큰 쪽에 보상을 줍니다. 회차 수를 제한(bounded rounds)하고 별도의 판정자(judge)를 두는 것이 이를 완화합니다.

이질성(Heterogeneity): 정확도를 실제로 움직이는 손잡이

실무 문헌에서 2024-2026년에 반복적으로 관찰된 패턴이 있습니다. N개의 에이전트 중 하나를 다른 기반 모델로 바꾸는 것이, N을 1만큼 늘리는 것보다 정확도 향상폭이 큽니다. 직관적으로는 단일 문화 문제입니다. 새로운 독립 오류 출처(independent-error source) 하나는 상관관계가 있는 표본(correlated sample) 하나를 더 추가하는 것보다 가치가 큽니다.

극단적으로는 이질성이 수적 우세(numerosity)를 이깁니다. 명확한 정답(clean ground truth)이 있는 대부분의 과제에서 서로 다른 모델 세 개는 같은 모델 다섯 개를 이깁니다.

배심원 방식(Jury methods)

Sibyl 프레임워크(Minsky-LLM 문헌에서 인용됨)는 "배심원(jury)"을 형식화합니다. 배심원은 각 단계에서 투표로 답을 다듬는 작은 전문화된 에이전트 집합입니다. 단순 다수결과 달리 배심원에는 역할(role)이 있습니다. 한 에이전트는 교차 심문(cross-examine)을 하고, 한 에이전트는 문맥을 제공하며, 한 에이전트는 타당성(plausibility)을 점수화합니다. 배심원 방식은 단순 투표(저렴하지만 단일 문화에 취약)와 완전한 MAD(비싸고 동조에 취약) 사이의 중간점입니다.

토론을 곁들인 투표가 우세한 경우

질문에 정답(ground truth)이 있습니다. 사실, 수학, 코드 동작처럼 투표 수렴(convergence)이 의미를 가집니다.
에이전트가 서로 다른 출처(source)나 도구에 접근할 수 있습니다. 이질성이 가능합니다.
회차가 제한됩니다. 보통 2-3회이며, 별도의 판정자나 검증자(verifier)가 있습니다.
예산이 3-5개의 에이전트를 허용합니다. graph 토폴로지에서 5-7개를 넘으면 조정 비용이 지배합니다.

토론을 곁들인 투표가 해로운 경우

질문이 의견 성격(opinion-shaped)을 띱니다. 에이전트는 가장 정확한 답이 아니라 가장 자신감 있어 보이는 답으로 수렴합니다.
모든 에이전트가 같은 기반 모델을 공유합니다. 단일 문화에서는 합의(consensus)가 무의미합니다.
회차가 무제한입니다. 동조가 매번 이깁니다.
과제가 단순합니다. N=5 자기 일관성을 적용한 단일 에이전트가 더 싸고 비슷하게 정확합니다.

직접 만들기

code/main.py는 다음을 구현합니다.

run_star(agents, hub, question) — 허브가 각 작업자(worker)에게 질문하고 결과를 집계합니다.
run_chain(agents, question) — 순차적인 다듬기(sequential refinement)입니다.
run_tree(root, children, question) — 깊이 2의 집계(depth-2 aggregation)를 가진 계층 구조입니다.
run_graph(agents, question, rounds) — 모든 노드 간 토론(all-to-all debate)이며 회차가 제한됩니다.
스크립트된 이질성 다이얼(heterogeneity dial) — 각 에이전트는 체계적 오답 방향을 나타내는 error_bias를 가집니다.
측정 하니스(measurement harness) — 각 토폴로지를 N=3, 5, 7에서 실행하고 (accuracy, total_tokens, wallclock_simulated)를 보고합니다.

실행합니다.

python3 code/main.py

예상 출력은 토폴로지 × N → (accuracy, tokens, latency) 표입니다. 연구 성격 과제에서는 N=3-5의 graph가 이기고, 빠른 사실 응답 과제에서는 star가 이깁니다. N=7의 graph는 조정 비용을 보여 줍니다. 지연(latency)이 정확도보다 빠르게 부풀어 오릅니다.

사용해보기

outputs/skill-topology-picker.md는 과제 설명을 읽고 토폴로지(star / chain / tree / graph), N(에이전트 수), 이질성 프로파일(사용할 기반 모델), 회차 제한(round bound)을 추천하는 스킬(skill)입니다.

배포 전 확인

어떤 앙상블(ensemble)이든 다음을 확인합니다.

하나의 강한 기반 모델로 N=5 자기 일관성(self-consistency at N=5) 부터 적용합니다. 가장 값싼 기준선입니다.
정확도가 중요하면 N=3 이질적 투표(heterogeneous voting at N=3) 로 올립니다. 변화량(delta)을 측정합니다.
과제에 구조(research, multi-step)가 있고 회차 제한이 가능할 때만 토론 토폴로지(debate topology) 로 올립니다.
소수파 클러스터(minority cluster)는 항상 기록(log)합니다. 소수파가 계속 맞다면 다양성 신호(diversity signal)가 있다는 뜻입니다.
정확도와 함께 실시간 지연과 토큰을 함께 벤치마크합니다. "10배 비용으로 더 나은 정확도"는 비즈니스 의사결정입니다.

연습문제

code/main.py를 실행합니다. graph 토폴로지의 조정 비용 곡선(coordination-tax curve)을 그립니다. accuracy vs N, tokens vs N을 비교합니다. 어떤 N에서 곡선이 꺾입니까? (난이도: 쉬움)
A-HMAD를 구현합니다. 의도적으로 서로 다른 편향을 가진 에이전트 세 개를 둡니다. Lesson 14의 단일 문화 공격(monoculture attack)에서 모두 같은 편향인 기준선과 A-HMAD를 비교하면 어떻게 다릅니까? (난이도: 중간)
graph 토폴로지에 "판정자(judge)" 역할을 추가합니다. 이 판정자는 투표하지 않고 최종 합의만 점수화합니다. 창발적인 동조 행동이 달라집니까? (난이도: 중간)
AgentVerse 논문(ICLR 2024)을 읽습니다. 여러분의 구현에서 가장 강하게 나타나는 창발적 행동이 무엇인지 찾습니다. 프롬프트 변경으로 반대 행동을 유도할 수 있습니까? (난이도: 어려움)
MultiAgentBench(arXiv:2503.01935) 4장(토폴로지 실험)을 읽습니다. 여러분의 하니스를 사용해 논문의 과제 하나에서 "graph가 연구 과제를 이긴다(graph-wins-research)" 결과를 재현합니다. (난이도: 어려움)

핵심 용어

용어	흔한 설명	실제 의미
자기 일관성(Self-Consistency)	"N번 표본추출하고 투표"	Wang 2022. 단일 모델에서 temperature>0 표본을 N개 만들고 추론 경로(reasoning path)에 다수결을 적용한다.
이질성(Heterogeneity)	"서로 다른 모델"	서로 다른 기반 모델이나 프롬프트 계열로 구성한 앙상블이다. 단일 문화를 깬다.
MAD(Multi-Agent Debate)	"멀티 에이전트 토론"	에이전트가 회차를 거치며 비판을 교환하는 일반 용어다. Du 2023을 참고한다.
A-HMAD	"Adversarial Heterogeneous MAD"	서로 다른 모델과 적대적 구조를 강조하는 MAD 변형이다.
토폴로지(Topology)	"누가 누구와 말하는가"	star, chain, tree, graph가 있다. 정보 흐름을 결정한다.
조정 비용(Coordination Tax)	"수확 체감"	graph에서 에이전트가 약 4개를 넘으면 비용이 품질보다 빠르게 증가하는 현상이다.
자원 행동(Volunteer Behavior)	"자발적 도움"	AgentVerse의 창발적 패턴이다. 에이전트가 어떤 단계를 맡겠다고 제안한다.
동조 행동(Conformity Behavior)	"압력 아래의 동의"	AgentVerse의 창발적 패턴이다. 에이전트가 비판자에게 맞춰 자기 입장을 정렬한다.
배심원(Jury)	"작은 전문화된 패널"	심문자(examiner), 문맥(context), 점수화(scorer) 같은 역할을 가진 Sibyl 스타일 앙상블이다.

더 읽을거리

Wang et al. — Self-Consistency Improves Chain of Thought Reasoning — 단일 모델 기준선입니다.
Du et al. — Improving Factuality and Reasoning via Multiagent Debate — 에이전트 수와 회차 수가 독립적으로 중요함을 보입니다.
MultiAgentBench / MARBLE — 연구에서는 graph, 파이프라인에서는 chain이 강하다는 토폴로지 벤치마크입니다.
Should we be going MAD? — MAD 전략 서베이입니다. 같은 예산에서 MAD가 자기 일관성에 지는 경우가 많음을 보입니다.
AgentVerse (ICLR 2024) — 자원과 동조의 창발적 패턴을 다룹니다.
MARBLE repo — 참고용 벤치마크 구현입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

topology-picker

Pick a multi-agent debate topology (star / chain / tree / graph), an N of agents, a heterogeneity profile, and a round bound for a given task.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.MultiAgentBench가 graph 토폴로지에서 약 4개 에이전트 부근에서 발견한 '조정 비용(coordination tax)'은 무엇을 의미하나요?

2.AgentVerse(ICLR 2024)는 멀티 에이전트 토론에서 두 가지 창발적 행동을 문서화했습니다. '동조 행동(conformity behavior)'이 기능이자 위험인 이유는 무엇인가요?

3.N개 에이전트 앙상블에서 같은 모델의 에이전트를 하나 더 추가하는 것보다, 한 에이전트를 다른 기반 모델로 교체하는 것이 정확도를 더 많이 높이는 이유는 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

에이전트를 위한 합의와 Byzantine Fault Tolerance

다음 강의

협상과 교섭