평가와 조정 벤치마크
2025-2026년에 등장한 다섯 개의 벤치마크(benchmark)가 멀티에이전트(multi-agent) 평가 영역을 폭넓게 다룹니다. MultiAgentBench / MARBLE(ACL 2025, arXiv:2503.01935)은 마일스톤(milestone) 기반 핵심성과지표(KPI)로 star/chain/tree/graph 토폴로지(topology)를 평가하며, 연구(research) 시나리오에서는 graph 토폴로지가 가장 우수하고, 인지적 계획(cognitive planning)을 더하면 마일스톤 달성률이 약 3%포인트 올라간다고 보고합니다. COMMA는 멀티모달(multimodal)이면서 정보가 비대칭(asymmetric)인 상황의 조정(coordination)을 평가하는데, GPT-4o를 포함한 최첨단(state-of-the-art) 모델조차 무작위(random) 베이스라인을 이기기 어렵다는 결과를 보입니다. MedAgentBoard(arXiv:2505.12371)는 네 가지 의료(medical) 작업 범주를 다루며, 멀티에이전트가 단일 LLM(single-LLM)을 압도하지 못하는 경우가 흔하다고 자주 보고합니다. AgentArch(arXiv:2509.10769)는 도구 사용(tool-use), 메모리(memory), 오케스트레이션(orchestration)을 결합한 엔터프라이즈(enterprise) 에이전트 아키텍처를 벤치마크합니다. SWE-bench Pro(arXiv:2509.16941)는 비즈니스 앱(business apps), B2B 서비스(B2B services), 개발자 도구(developer tools) 영역에 걸친 41개 저장소(repo)와 1865개 문제를 담고 있으며, 최첨단(frontier) 모델이 Pro에서는 약 23%에 머무는 반면 Verified에서는 70%를 넘는 점수를 기록합니다. 이 격차는 학습 자료 오염(contamination)에 대한 현실 점검(reality check) 역할을 합니다. Claude Opus 4.7(2026년 4월)은 에이전트 팀(agent-teams) 조정을 명시적으로 사용해 Pro에서 64.3%가 보고되었지만, Anthropic의 1차 출처가 아직 공개되지 않았으므로 잠정(preliminary) 수치로 다룹니다. Verdent(에이전트 스캐폴드(agent scaffold))는 Verified에서 76.1% pass@1을 기록했습니다(Verdent technical report). AAAI 2026 Bridge Program WMAC(https://multiagents.org/2026/)은 2026년 멀티에이전트 연구의 커뮤니티 구심점(community focal point)입니다. 이 강의는 MARBLE 지표를 기반으로 토폴로지와 지표를 함께 훑는 스윕(sweep)을 실행해 보고, "SWE-bench Verified를 통과한 것만으로는 일반화(generalization) 증거가 되지 않는다"라는 규칙을 못 박습니다.
유형: Learn
언어: Python (stdlib)
선수 지식: Phase 16 · 15 (투표, Self-Consistency와 토론 토폴로지), Phase 16 · 23 (실패 모드)
예상 시간: 약 75분
문제
어떤 논문이 "우리의 멀티에이전트 시스템이 더 낫다"라고 주장할 때 던져야 할 질문은 단순합니다. 무엇과 비교해서 더 나은가, 어떤 작업에서 더 나은가, 어떻게 측정했는가? 2023-2024년의 멀티에이전트 평가는 혼란 그 자체였습니다. 모두가 자기 지표(metric), 자기 베이스라인(baseline), 자기 작업 묶음(task set)을 선택했습니다. 2025-2026년의 벤치마크들은 이 영역에 비로소 구조를 부여했습니다.
공유 벤치마크(shared benchmark)가 없으면 두 멀티에이전트 시스템을 의미 있게 비교할 수 없습니다. 더 심각하게는, 따로 떼어 둔 평가용(hold-out) 벤치마크가 없으면 최첨단 모델이 학습 데이터에 벤치마크가 섞이는 오염(contamination)을 겪을 수 있습니다. SWE-bench Verified는 2025년 중반에 학습 코퍼스(training corpora)에 부분적으로 흘러들어 갔고, 최첨단 점수는 부풀려졌으며, Pro는 오염되지 않은(uncontaminated) 현실 점검으로 설계되었습니다.
이 강의는 2026년 기준의 표준(canonical) 벤치마크 다섯 개를 차례로 열거하고, 각각이 무엇을 측정하는지 이름을 붙이며, 벤치마크 주장(benchmark claim)을 회의적으로 읽는 방법을 가르칩니다.
개념
MultiAgentBench (MARBLE) — ACL 2025
arXiv:2503.01935 논문입니다. 연구, 코딩, 계획 작업에 걸쳐 네 가지 조정 토폴로지(star, chain, tree, graph)를 평가합니다. 마일스톤 기반 핵심성과지표(milestone-based KPI)는 최종 성공만이 아니라 부분적인 진행 상황도 함께 추적합니다.
측정 결과는 다음과 같습니다.
- graph 토폴로지는 연구(research) 시나리오에서 가장 좋습니다. 임의의 노드 사이를 자유롭게 비평하는(any-to-any critique) 구조를 지원합니다.
- chain 토폴로지는 단계별 개선(stepwise-refinement) 방식 코딩에 가장 적합합니다.
- star 토폴로지는 빠른 사실 통합(fast-factual consolidation)에 가장 적합합니다.
- 조정 비용(coordination tax)은 graph 구조에서 에이전트 수가 약 4개를 넘어가면 두드러지게 나타납니다.
- 인지적 계획(cognitive planning)을 더하면 모든 토폴로지에서 마일스톤 달성률이 약 3%포인트 향상됩니다.
사용 시점: 조정 토폴로지들을 같은 기준으로(apples-to-apples) 비교하고 싶을 때 사용합니다. MARBLE 저장소(https://github.com/ulab-uiuc/MARBLE)는 평가자(evaluator) 구현을 제공합니다.
서로 다른 관측 모달리티(observation modality)를 가진 에이전트들이 정보를 완전히 공유하지 않은 채 조정해야 하는 작업을 다룹니다. 보고된 결과는 다소 불편한 사실을 드러냅니다. GPT-4o를 포함한 최첨단 모델조차 COMMA의 에이전트-에이전트 협업(agent-agent collaboration)에서 무작위 베이스라인(random baseline)을 이기기 어려워합니다. 이는 멀티에이전트 모달리티가 충분히 학습되지도, 충분히 평가되지도 않았다는 신호입니다. LLM은 단일 모달리티(single-modality) 협동은 그럭저럭 처리하지만, 멀티모달 조정에서는 쉽게 무너집니다.
사용 시점: 시스템에 멀티모달이나 비대칭 정보 조정이 포함될 때 사용합니다. COMMA의 부정적 결과(null result)는 "주장하기 전에 먼저 측정하라"는 경고입니다.
MedAgentBoard — 도메인 스트레스 테스트(domain stress test)
arXiv:2505.12371 논문입니다. 진단(diagnosis), 치료 계획(treatment planning), 보고서 생성(report generation), 환자 커뮤니케이션(patient communication)이라는 네 가지 의료 작업 범주를 다룹니다. 멀티에이전트와 단일 LLM, 그리고 전통적인 규칙 기반(rule-based) 시스템을 함께 비교합니다.
핵심 결과는 멀티에이전트가 대부분의 범주에서 단일 LLM을 압도하지 못한다는 점입니다. 멀티에이전트의 이점은 좁게만 나타납니다. 하위 작업이 명확히 분리될 수 있을 때(진단 + 치료 같은 경우)는 작업 분해(task decomposition)가 도움이 되지만, 조정 부담(coordination overhead)이 전문화로 얻는 이득(specialization gain)을 넘어서면 오히려 해롭습니다(보고서 생성 같은 경우).
사용 시점: 도메인에 명확하게 정해진 단일 LLM 베이스라인이 있을 때 사용합니다. MedAgentBoard의 교훈이 일반화된다면, 제안된 많은 멀티에이전트 시스템은 과설계(over-engineered)일 가능성이 큽니다.
AgentArch — 엔터프라이즈 아키텍처(enterprise architectures)
arXiv:2509.10769 논문입니다. 도구 사용, 메모리, 오케스트레이션이 층층이 쌓인 엔터프라이즈 환경을 다룹니다. 벤치마크는 각 계층(layer)이 기여하는 정도를 따로 떼어 측정합니다. 도구를 추가하면 얼마나 좋아지는가, 메모리를 더하면 어떤가, 멀티에이전트 오케스트레이션을 얹으면 또 어떤가를 분리해서 보여 줍니다.
사용 시점: 엔터프라이즈 에이전트 스택(enterprise agent stack)을 설계하고 각 계층을 도입할 근거를 제시해야 할 때 사용합니다. AgentArch는 가치(value)를 측정하기 어려운 기능을 무턱대고 도입하는 일을 막아 줍니다.
SWE-bench Pro — 현실 점검(reality check)
arXiv:2509.16941 논문입니다. 비즈니스 앱, B2B 서비스, 개발자 도구 영역에 걸친 41개 저장소와 1865개 문제로 구성됩니다. 더 늦은 학습 컷오프(training cutoff) 기준으로도 오염되지 않도록(uncontaminated) 설계되었습니다. 최첨단 모델은 Pro에서 약 23%, Verified에서 70%를 넘는 점수를 기록합니다. 이 격차가 바로 오염 신호(contamination signal)입니다.
2026년 4월 점수는 다음과 같습니다.
- Claude Opus 4.7의 Pro 점수: 64.3%. 에이전트 팀 조정(agent-teams coordination)을 명시적으로 사용한 결과로 보고되었습니다. Anthropic의 1차 출처가 아직 없으므로 잠정 수치로 다룹니다.
- Verdent(에이전트 스캐폴드)의 Verified 점수: 76.1% pass@1(technical report).
- 에이전트 스캐폴딩 없이 측정한 최첨단 모델의 Pro 원점수(raw scores): 약 23-35%(SWE-bench Pro paper).
요점은 이제 "SWE-bench Verified를 이겼다"는 말이 더 이상 성능(capability) 증거가 아니라는 것입니다. 현시점에서 통과해야 할 관문(gating test)은 Pro입니다. 에이전트 팀 스캐폴딩(agent-team scaffolding)은 Pro에서 측정 가능한 이득(약 30-40점포인트 격차)을 만들어 내며, 이는 2026년에 멀티에이전트 조정을 옹호하는 가장 강력한 경험적 근거(empirical argument) 중 하나입니다.
AAAI 2026 WMAC
AAAI 2026 Bridge Program — Workshop on Multi-Agent Coordination(https://multiagents.org/2026/)입니다. 2026년 멀티에이전트 AI 연구의 커뮤니티 구심점입니다. 채택된 논문(accepted papers)과 워크숍 회의록(workshop proceedings)은 새 방법론을 평가하는 표준 발표 무대(canonical venue)입니다. 운영(production) 단계의 의사 결정에서는 arXiv 사전출판(preprint)보다 WMAC에서 채택된 주장을 더 신뢰합니다.
벤치마크 주장을 회의적으로 읽기 — 2026 체크리스트
누군가 멀티에이전트 결과를 주장하면 다음 항목을 점검합니다.
- 어떤 벤치마크의 어떤 분할(split)인가? SWE-bench Verified와 Pro는 차이가 큽니다. 잘못된 분할에서 보고된 숫자는 의미가 없습니다.
- 오염 점검(contamination check). 해당 벤치마크가 모델의 학습 컷오프 이후에 공개되었는가? 그렇지 않다면 신중하게 다루어야 합니다.
- 베이스라인 비교(baseline comparison). 단일 LLM 베이스라인, 무작위 베이스라인, 이전 멀티에이전트 연구와 비교했는가? "같은 시스템의 튜닝 전(untuned) 버전"과만 비교한 것은 충분하지 않습니다.
- 통계적 유의성(statistical significance). 시행 횟수(N trials), p-값(p-value), 신뢰구간(confidence interval)이 함께 보고되었는가? 최첨단 모델은 분산(variance)이 커서 단일 실행 결과만으로는 오해를 부르기 쉽습니다.
- 작업 다양성(task diversity). 작업이 하나인가, 여러 개인가? 운영 환경에서는 일반화가 중요합니다.
- 비용 공개(cost disclosure). 작업당 토큰 수와 벽시계 시간(wall-clock)이 공개되었는가? 20배 비용으로 얻은 90% 해답은 성능 주장이 아니라 사업적 의사 결정입니다.
어떤 벤치마크도 잘 측정하지 못하는 것
- 장기 조정(long-horizon coordination). 며칠에 걸친 벽시계 시간 상호작용을 의미합니다. 현재 벤치마크는 모두 짧은 호흡으로 진행됩니다.
- 적대적 환경에서의 견고함(adversarial resilience). 에이전트 하나가 악의적이거나 침해된(compromised) 상태라면 어떻게 되는가?
- 배포 환경에서의 분포 변화(drift under deployment). 벤치마크는 정적(static)이지만 운영 분포(production distribution)는 계속 변합니다.
- 비용 기준 정규화 성능(cost-normalized performance). 대부분의 벤치마크는 비용 대비 정확도(accuracy-per-dollar)가 아니라 원정확도(raw accuracy)만 보고합니다.
실제로 관심 있는 축에 맞춰 내부 벤치마크(internal benchmark)를 직접 구축하는 편이 옳은 선택일 때가 많습니다.
직접 만들기
code/main.py는 비대화형(non-interactive)으로 한 번에 끝까지 실행되는 예제입니다.
- 장난감(toy) 작업 묶음 위에서 세 개의 멀티에이전트 시스템을 시뮬레이션(simulate)합니다.
- 각 시스템에 대해 MARBLE 스타일의 마일스톤 지표를 계산합니다.
- "학습" 집합에서 일부 작업을 제외(hold out)해 오염 점검을 수행합니다.
- 무작위 베이스라인과 명시적으로 비교합니다.
- 벤치마크 주장 채점표(benchmark-claims scorecard)를 출력합니다.
실행 방법은 다음과 같습니다.
python3 code/main.py
예상 출력은 원정확도(raw accuracy), 마일스톤 달성률, 작업당 비용(cost-per-task), 무작위 베이스라인 대비 격차(vs-random baseline delta), 오염 점검 메모(contamination-check note)를 포함한 시스템 채점표입니다.
사용해보기
outputs/skill-benchmark-reader.md는 어떤 멀티에이전트 벤치마크 주장이라도 받아 정밀 검토 체크리스트를 적용하도록 안내합니다. 결과물은 등급(grade)과 주의 사항(caveat)으로 정리됩니다.
배포 전 확인
운영 단계에서 평가를 단단히 운영하려면 다음을 따릅니다.
- 실제 운영 분포를 반영한 내부 벤치마크(internal benchmark)를 구축합니다. 공개 벤치마크는 참고 자료일 뿐 대체재가 되지 않습니다.
- 모든 비교에 무작위 베이스라인을 포함합니다. 조정 작업(coordination task)에서 무작위를 큰 차이로 이기지 못한다면 작업 자체가 잘못 정의되었을(ill-posed) 가능성이 있습니다.
- 정확도와 함께 비용도 보고합니다. 토큰 비용(token cost)과 벽시계 시간이 모두 필요합니다. 운영팀(ops team)은 둘 다 봐야 합니다.
- 분기마다 벤치마크를 다시 만듭니다. 운영 분포는 계속 변하기 때문에 오래된 벤치마크는 오히려 오해를 부릅니다.
- 공개 벤치마크에 대한 과적합(overfitting)을 피합니다. 팀이 SWE-bench Pro 점수만 끌어올리기 위한 최적화에 몰두하면 운영 환경에서 오히려 성능이 떨어질 수 있습니다.
연습문제
- (쉬움)
code/main.py를 실행합니다. 시뮬레이션된 세 시스템 중 마일스톤당 비용(cost-per-milestone)이 가장 좋은 것은 무엇인가요? 원정확도가 가장 높은 시스템과 일치하나요?
- (중간) MultiAgentBench(arXiv:2503.01935)를 읽습니다. 자신의 작업 도메인에 대해 MARBLE이 추천할 네 가지 토폴로지 중 하나를 고릅니다. 논문의 결과를 근거로 그 선택을 정당화해 봅니다.
- (중간) SWE-bench Pro 논문을 읽습니다. 무엇이 이 벤치마크를 오염 저항적(contamination-resistant)으로 만드는가요? 같은 기법을 자신이 관심 있는 다른 벤치마크에도 적용할 수 있을까요?
- (어려움) COMMA의 멀티모달 조정 결과를 읽습니다. 내부 벤치마크에 추가할 수 있는 간단한 멀티모달 조정 작업을 설계해 봅니다. 어떤 결과가 유의미한 신호가 될지 정리합니다.
- (어려움) 최근 멀티에이전트 논문 한 편의 대표 결과(headline result)에 벤치마크 주장 체크리스트를 적용합니다. 그 주장에 어떤 등급을 매기겠습니까?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| MARBLE | "MultiAgentBench" | ACL 2025. 마일스톤 KPI로 star/chain/tree/graph 토폴로지를 평가하는 벤치마크이다. |
| COMMA | "멀티모달 벤치마크" | 멀티모달이면서 정보가 비대칭인 조정을 평가하며, 최첨단 모델조차 무작위 베이스라인 대비 고전하는 영역이다. |
| MedAgentBoard | "도메인 스트레스 테스트" | 네 가지 의료 범주를 다루며, 멀티에이전트가 단일 LLM을 자주 압도하지 못한다는 결과를 보고한다. |
| AgentArch | "엔터프라이즈 벤치마크" | 도구, 메모리, 오케스트레이션이 층층이 쌓인 구조를 분리해 평가한다. |
| SWE-bench Pro | "오염 저항적 벤치마크" | 1865개 문제와 41개 저장소로 구성되며, Verified의 70% 이상과 Pro의 약 23% 사이 격차가 오염 신호이다. |
| Milestone achievement | "부분 점수(partial credit)" | 최종 성공만이 아니라 진행 정도까지 보상하는 벤치마크 방식이다. |
| Contamination | "벤치마크가 학습 자료에 새어 들어감" | 벤치마크 공개 이후 학습 코퍼스에 흘러들어 가서 점수가 부풀려지는 현상이다. |
| WMAC | "AAAI 2026 Bridge Program" | Workshop on Multi-Agent Coordination이며 2026년 커뮤니티 구심점이다. |
더 읽을거리