평가와 조정 벤치마크

2025-2026년에 등장한 다섯 개의 벤치마크(benchmark)가 멀티에이전트(multi-agent) 평가 영역을 폭넓게 다룹니다. MultiAgentBench / MARBLE(ACL 2025, arXiv:2503.01935)은 마일스톤(milestone) 기반 핵심성과지표(KPI)로 star/chain/tree/graph 토폴로지(topology)를 평가하며, 연구(research) 시나리오에서는 graph 토폴로지가 가장 우수하고, 인지적 계획(cognitive planning)을 더하면 마일스톤 달성률이 약 3%포인트 올라간다고 보고합니다. COMMA는 멀티모달(multimodal)이면서 정보가 비대칭(asymmetric)인 상황의 조정(coordination)을 평가하는데, GPT-4o를 포함한 최첨단(state-of-the-art) 모델조차 무작위(random) 베이스라인을 이기기 어렵다는 결과를 보입니다. MedAgentBoard(arXiv:2505.12371)는 네 가지 의료(medical) 작업 범주를 다루며, 멀티에이전트가 단일 LLM(single-LLM)을 압도하지 못하는 경우가 흔하다고 자주 보고합니다. AgentArch(arXiv:2509.10769)는 도구 사용(tool-use), 메모리(memory), 오케스트레이션(orchestration)을 결합한 엔터프라이즈(enterprise) 에이전트 아키텍처를 벤치마크합니다. SWE-bench Pro(arXiv:2509.16941)는 비즈니스 앱(business apps), B2B 서비스(B2B services), 개발자 도구(developer tools) 영역에 걸친 41개 저장소(repo)와 1865개 문제를 담고 있으며, 최첨단(frontier) 모델이 Pro에서는 약 23%에 머무는 반면 Verified에서는 70%를 넘는 점수를 기록합니다. 이 격차는 학습 자료 오염(contamination)에 대한 현실 점검(reality check) 역할을 합니다. Claude Opus 4.7(2026년 4월)은 에이전트 팀(agent-teams) 조정을 명시적으로 사용해 Pro에서 64.3%가 보고되었지만, Anthropic의 1차 출처가 아직 공개되지 않았으므로 잠정(preliminary) 수치로 다룹니다. Verdent(에이전트 스캐폴드(agent scaffold))는 Verified에서 76.1% pass@1을 기록했습니다(Verdent technical report). AAAI 2026 Bridge Program WMAC(https://multiagents.org/2026/)은 2026년 멀티에이전트 연구의 커뮤니티 구심점(community focal point)입니다. 이 강의는 MARBLE 지표를 기반으로 토폴로지와 지표를 함께 훑는 스윕(sweep)을 실행해 보고, "SWE-bench Verified를 통과한 것만으로는 일반화(generalization) 증거가 되지 않는다"라는 규칙을 못 박습니다.

유형: Learn 언어: Python (stdlib) 선수 지식: Phase 16 · 15 (투표, Self-Consistency와 토론 토폴로지), Phase 16 · 23 (실패 모드) 예상 시간: 약 75분

문제

어떤 논문이 "우리의 멀티에이전트 시스템이 더 낫다"라고 주장할 때 던져야 할 질문은 단순합니다. 무엇과 비교해서 더 나은가, 어떤 작업에서 더 나은가, 어떻게 측정했는가? 2023-2024년의 멀티에이전트 평가는 혼란 그 자체였습니다. 모두가 자기 지표(metric), 자기 베이스라인(baseline), 자기 작업 묶음(task set)을 선택했습니다. 2025-2026년의 벤치마크들은 이 영역에 비로소 구조를 부여했습니다.

공유 벤치마크(shared benchmark)가 없으면 두 멀티에이전트 시스템을 의미 있게 비교할 수 없습니다. 더 심각하게는, 따로 떼어 둔 평가용(hold-out) 벤치마크가 없으면 최첨단 모델이 학습 데이터에 벤치마크가 섞이는 오염(contamination)을 겪을 수 있습니다. SWE-bench Verified는 2025년 중반에 학습 코퍼스(training corpora)에 부분적으로 흘러들어 갔고, 최첨단 점수는 부풀려졌으며, Pro는 오염되지 않은(uncontaminated) 현실 점검으로 설계되었습니다.

이 강의는 2026년 기준의 표준(canonical) 벤치마크 다섯 개를 차례로 열거하고, 각각이 무엇을 측정하는지 이름을 붙이며, 벤치마크 주장(benchmark claim)을 회의적으로 읽는 방법을 가르칩니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.SWE-bench Verified(~70%)와 SWE-bench Pro(~23%) 점수 사이의 격차가 오염(contamination) 신호 역할을 하는 이유는 무엇인가요?

2.MARBLE(MultiAgentBench)는 이진 합격/불합격 대신 '마일스톤 기반 핵심성과지표(milestone-based KPI)'를 사용합니다. 이것이 멀티에이전트 평가에 더 유용한 이유는 무엇인가요?

0/2 답변 완료

개념

MultiAgentBench (MARBLE) — ACL 2025

arXiv:2503.01935 논문입니다. 연구, 코딩, 계획 작업에 걸쳐 네 가지 조정 토폴로지(star, chain, tree, graph)를 평가합니다. 마일스톤 기반 핵심성과지표(milestone-based KPI)는 최종 성공만이 아니라 부분적인 진행 상황도 함께 추적합니다.

측정 결과는 다음과 같습니다.

  • graph 토폴로지는 연구(research) 시나리오에서 가장 좋습니다. 임의의 노드 사이를 자유롭게 비평하는(any-to-any critique) 구조를 지원합니다.
  • chain 토폴로지는 단계별 개선(stepwise-refinement) 방식 코딩에 가장 적합합니다.
  • star 토폴로지는 빠른 사실 통합(fast-factual consolidation)에 가장 적합합니다.
  • 조정 비용(coordination tax)은 graph 구조에서 에이전트 수가 약 4개를 넘어가면 두드러지게 나타납니다.
  • 인지적 계획(cognitive planning)을 더하면 모든 토폴로지에서 마일스톤 달성률이 약 3%포인트 향상됩니다.

사용 시점: 조정 토폴로지들을 같은 기준으로(apples-to-apples) 비교하고 싶을 때 사용합니다. MARBLE 저장소(https://github.com/ulab-uiuc/MARBLE)는 평가자(evaluator) 구현을 제공합니다.

COMMA — 멀티모달과 비대칭 정보(multimodal asymmetric information)

서로 다른 관측 모달리티(observation modality)를 가진 에이전트들이 정보를 완전히 공유하지 않은 채 조정해야 하는 작업을 다룹니다. 보고된 결과는 다소 불편한 사실을 드러냅니다. GPT-4o를 포함한 최첨단 모델조차 COMMA의 에이전트-에이전트 협업(agent-agent collaboration)에서 무작위 베이스라인(random baseline)을 이기기 어려워합니다. 이는 멀티에이전트 모달리티가 충분히 학습되지도, 충분히 평가되지도 않았다는 신호입니다. LLM은 단일 모달리티(single-modality) 협동은 그럭저럭 처리하지만, 멀티모달 조정에서는 쉽게 무너집니다.

사용 시점: 시스템에 멀티모달이나 비대칭 정보 조정이 포함될 때 사용합니다. COMMA의 부정적 결과(null result)는 "주장하기 전에 먼저 측정하라"는 경고입니다.

MedAgentBoard — 도메인 스트레스 테스트(domain stress test)

arXiv:2505.12371 논문입니다. 진단(diagnosis), 치료 계획(treatment planning), 보고서 생성(report generation), 환자 커뮤니케이션(patient communication)이라는 네 가지 의료 작업 범주를 다룹니다. 멀티에이전트와 단일 LLM, 그리고 전통적인 규칙 기반(rule-based) 시스템을 함께 비교합니다.

핵심 결과는 멀티에이전트가 대부분의 범주에서 단일 LLM을 압도하지 못한다는 점입니다. 멀티에이전트의 이점은 좁게만 나타납니다. 하위 작업이 명확히 분리될 수 있을 때(진단 + 치료 같은 경우)는 작업 분해(task decomposition)가 도움이 되지만, 조정 부담(coordination overhead)이 전문화로 얻는 이득(specialization gain)을 넘어서면 오히려 해롭습니다(보고서 생성 같은 경우).

사용 시점: 도메인에 명확하게 정해진 단일 LLM 베이스라인이 있을 때 사용합니다. MedAgentBoard의 교훈이 일반화된다면, 제안된 많은 멀티에이전트 시스템은 과설계(over-engineered)일 가능성이 큽니다.

AgentArch — 엔터프라이즈 아키텍처(enterprise architectures)

arXiv:2509.10769 논문입니다. 도구 사용, 메모리, 오케스트레이션이 층층이 쌓인 엔터프라이즈 환경을 다룹니다. 벤치마크는 각 계층(layer)이 기여하는 정도를 따로 떼어 측정합니다. 도구를 추가하면 얼마나 좋아지는가, 메모리를 더하면 어떤가, 멀티에이전트 오케스트레이션을 얹으면 또 어떤가를 분리해서 보여 줍니다.

사용 시점: 엔터프라이즈 에이전트 스택(enterprise agent stack)을 설계하고 각 계층을 도입할 근거를 제시해야 할 때 사용합니다. AgentArch는 가치(value)를 측정하기 어려운 기능을 무턱대고 도입하는 일을 막아 줍니다.

SWE-bench Pro — 현실 점검(reality check)

arXiv:2509.16941 논문입니다. 비즈니스 앱, B2B 서비스, 개발자 도구 영역에 걸친 41개 저장소와 1865개 문제로 구성됩니다. 더 늦은 학습 컷오프(training cutoff) 기준으로도 오염되지 않도록(uncontaminated) 설계되었습니다. 최첨단 모델은 Pro에서 약 23%, Verified에서 70%를 넘는 점수를 기록합니다. 이 격차가 바로 오염 신호(contamination signal)입니다.

2026년 4월 점수는 다음과 같습니다.

  • Claude Opus 4.7의 Pro 점수: 64.3%. 에이전트 팀 조정(agent-teams coordination)을 명시적으로 사용한 결과로 보고되었습니다. Anthropic의 1차 출처가 아직 없으므로 잠정 수치로 다룹니다.
  • Verdent(에이전트 스캐폴드)의 Verified 점수: 76.1% pass@1(technical report).
  • 에이전트 스캐폴딩 없이 측정한 최첨단 모델의 Pro 원점수(raw scores): 약 23-35%(SWE-bench Pro paper).

요점은 이제 "SWE-bench Verified를 이겼다"는 말이 더 이상 성능(capability) 증거가 아니라는 것입니다. 현시점에서 통과해야 할 관문(gating test)은 Pro입니다. 에이전트 팀 스캐폴딩(agent-team scaffolding)은 Pro에서 측정 가능한 이득(약 30-40점포인트 격차)을 만들어 내며, 이는 2026년에 멀티에이전트 조정을 옹호하는 가장 강력한 경험적 근거(empirical argument) 중 하나입니다.

AAAI 2026 WMAC

AAAI 2026 Bridge Program — Workshop on Multi-Agent Coordination(https://multiagents.org/2026/)입니다. 2026년 멀티에이전트 AI 연구의 커뮤니티 구심점입니다. 채택된 논문(accepted papers)과 워크숍 회의록(workshop proceedings)은 새 방법론을 평가하는 표준 발표 무대(canonical venue)입니다. 운영(production) 단계의 의사 결정에서는 arXiv 사전출판(preprint)보다 WMAC에서 채택된 주장을 더 신뢰합니다.

벤치마크 주장을 회의적으로 읽기 — 2026 체크리스트

누군가 멀티에이전트 결과를 주장하면 다음 항목을 점검합니다.

  1. 어떤 벤치마크의 어떤 분할(split)인가? SWE-bench Verified와 Pro는 차이가 큽니다. 잘못된 분할에서 보고된 숫자는 의미가 없습니다.
  2. 오염 점검(contamination check). 해당 벤치마크가 모델의 학습 컷오프 이후에 공개되었는가? 그렇지 않다면 신중하게 다루어야 합니다.
  3. 베이스라인 비교(baseline comparison). 단일 LLM 베이스라인, 무작위 베이스라인, 이전 멀티에이전트 연구와 비교했는가? "같은 시스템의 튜닝 전(untuned) 버전"과만 비교한 것은 충분하지 않습니다.
  4. 통계적 유의성(statistical significance). 시행 횟수(N trials), p-값(p-value), 신뢰구간(confidence interval)이 함께 보고되었는가? 최첨단 모델은 분산(variance)이 커서 단일 실행 결과만으로는 오해를 부르기 쉽습니다.
  5. 작업 다양성(task diversity). 작업이 하나인가, 여러 개인가? 운영 환경에서는 일반화가 중요합니다.
  6. 비용 공개(cost disclosure). 작업당 토큰 수와 벽시계 시간(wall-clock)이 공개되었는가? 20배 비용으로 얻은 90% 해답은 성능 주장이 아니라 사업적 의사 결정입니다.

어떤 벤치마크도 잘 측정하지 못하는 것

  • 장기 조정(long-horizon coordination). 며칠에 걸친 벽시계 시간 상호작용을 의미합니다. 현재 벤치마크는 모두 짧은 호흡으로 진행됩니다.
  • 적대적 환경에서의 견고함(adversarial resilience). 에이전트 하나가 악의적이거나 침해된(compromised) 상태라면 어떻게 되는가?
  • 배포 환경에서의 분포 변화(drift under deployment). 벤치마크는 정적(static)이지만 운영 분포(production distribution)는 계속 변합니다.
  • 비용 기준 정규화 성능(cost-normalized performance). 대부분의 벤치마크는 비용 대비 정확도(accuracy-per-dollar)가 아니라 원정확도(raw accuracy)만 보고합니다.

실제로 관심 있는 축에 맞춰 내부 벤치마크(internal benchmark)를 직접 구축하는 편이 옳은 선택일 때가 많습니다.

직접 만들기

code/main.py는 비대화형(non-interactive)으로 한 번에 끝까지 실행되는 예제입니다.

  • 장난감(toy) 작업 묶음 위에서 세 개의 멀티에이전트 시스템을 시뮬레이션(simulate)합니다.
  • 각 시스템에 대해 MARBLE 스타일의 마일스톤 지표를 계산합니다.
  • "학습" 집합에서 일부 작업을 제외(hold out)해 오염 점검을 수행합니다.
  • 무작위 베이스라인과 명시적으로 비교합니다.
  • 벤치마크 주장 채점표(benchmark-claims scorecard)를 출력합니다.

실행 방법은 다음과 같습니다.

python3 code/main.py

예상 출력은 원정확도(raw accuracy), 마일스톤 달성률, 작업당 비용(cost-per-task), 무작위 베이스라인 대비 격차(vs-random baseline delta), 오염 점검 메모(contamination-check note)를 포함한 시스템 채점표입니다.

사용해보기

outputs/skill-benchmark-reader.md는 어떤 멀티에이전트 벤치마크 주장이라도 받아 정밀 검토 체크리스트를 적용하도록 안내합니다. 결과물은 등급(grade)과 주의 사항(caveat)으로 정리됩니다.

배포 전 확인

운영 단계에서 평가를 단단히 운영하려면 다음을 따릅니다.

  • 실제 운영 분포를 반영한 내부 벤치마크(internal benchmark)를 구축합니다. 공개 벤치마크는 참고 자료일 뿐 대체재가 되지 않습니다.
  • 모든 비교에 무작위 베이스라인을 포함합니다. 조정 작업(coordination task)에서 무작위를 큰 차이로 이기지 못한다면 작업 자체가 잘못 정의되었을(ill-posed) 가능성이 있습니다.
  • 정확도와 함께 비용도 보고합니다. 토큰 비용(token cost)과 벽시계 시간이 모두 필요합니다. 운영팀(ops team)은 둘 다 봐야 합니다.
  • 분기마다 벤치마크를 다시 만듭니다. 운영 분포는 계속 변하기 때문에 오래된 벤치마크는 오히려 오해를 부릅니다.
  • 공개 벤치마크에 대한 과적합(overfitting)을 피합니다. 팀이 SWE-bench Pro 점수만 끌어올리기 위한 최적화에 몰두하면 운영 환경에서 오히려 성능이 떨어질 수 있습니다.

연습문제

  1. (쉬움) code/main.py를 실행합니다. 시뮬레이션된 세 시스템 중 마일스톤당 비용(cost-per-milestone)이 가장 좋은 것은 무엇인가요? 원정확도가 가장 높은 시스템과 일치하나요?
  2. (중간) MultiAgentBench(arXiv:2503.01935)를 읽습니다. 자신의 작업 도메인에 대해 MARBLE이 추천할 네 가지 토폴로지 중 하나를 고릅니다. 논문의 결과를 근거로 그 선택을 정당화해 봅니다.
  3. (중간) SWE-bench Pro 논문을 읽습니다. 무엇이 이 벤치마크를 오염 저항적(contamination-resistant)으로 만드는가요? 같은 기법을 자신이 관심 있는 다른 벤치마크에도 적용할 수 있을까요?
  4. (어려움) COMMA의 멀티모달 조정 결과를 읽습니다. 내부 벤치마크에 추가할 수 있는 간단한 멀티모달 조정 작업을 설계해 봅니다. 어떤 결과가 유의미한 신호가 될지 정리합니다.
  5. (어려움) 최근 멀티에이전트 논문 한 편의 대표 결과(headline result)에 벤치마크 주장 체크리스트를 적용합니다. 그 주장에 어떤 등급을 매기겠습니까?

핵심 용어

용어흔한 설명실제 의미
MARBLE"MultiAgentBench"ACL 2025. 마일스톤 KPI로 star/chain/tree/graph 토폴로지를 평가하는 벤치마크이다.
COMMA"멀티모달 벤치마크"멀티모달이면서 정보가 비대칭인 조정을 평가하며, 최첨단 모델조차 무작위 베이스라인 대비 고전하는 영역이다.
MedAgentBoard"도메인 스트레스 테스트"네 가지 의료 범주를 다루며, 멀티에이전트가 단일 LLM을 자주 압도하지 못한다는 결과를 보고한다.
AgentArch"엔터프라이즈 벤치마크"도구, 메모리, 오케스트레이션이 층층이 쌓인 구조를 분리해 평가한다.
SWE-bench Pro"오염 저항적 벤치마크"1865개 문제와 41개 저장소로 구성되며, Verified의 70% 이상과 Pro의 약 23% 사이 격차가 오염 신호이다.
Milestone achievement"부분 점수(partial credit)"최종 성공만이 아니라 진행 정도까지 보상하는 벤치마크 방식이다.
Contamination"벤치마크가 학습 자료에 새어 들어감"벤치마크 공개 이후 학습 코퍼스에 흘러들어 가서 점수가 부풀려지는 현상이다.
WMAC"AAAI 2026 Bridge Program"Workshop on Multi-Agent Coordination이며 2026년 커뮤니티 구심점이다.

더 읽을거리

  • MultiAgentBench / MARBLE — 마일스톤 KPI를 갖춘 토폴로지 벤치마크입니다.
  • MARBLE repository — 참조 구현(reference implementation)입니다.
  • MedAgentBoard — 도메인 스트레스 테스트로, 멀티에이전트가 자주 단일 LLM을 압도하지 못한다는 점을 보여 줍니다.
  • AgentArch — 엔터프라이즈 에이전트 아키텍처 벤치마크입니다.
  • SWE-bench leaderboards — 최첨단 모델의 Verified와 Pro 점수를 확인할 수 있습니다.
  • AAAI 2026 WMAC — 2026년 커뮤니티 구심점입니다.

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

benchmark-reader

Read a multi-agent benchmark claim skeptically. Grades the claim on benchmark selection, contamination, baselines, statistical significance, task diversity, and cost disclosure.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.MedAgentBoard는 의료 과제에서 멀티에이전트 시스템이 단일 LLM을 자주 압도하지 못한다고 발견했습니다. 이 도메인에서 멀티에이전트가 실제로 도움이 되는 경우는 언제인가요?

2.누군가 자신의 멀티에이전트 시스템이 95% 정확도를 달성했다는 벤치마크 결과를 발표합니다. 2026년 체크리스트를 사용할 때 가장 먼저 확인해야 할 것은 무엇인가요?

3.COMMA는 GPT-4o조차 멀티모달 비대칭 조정 과제에서 무작위 기준선(random baseline)을 이기기 어렵다고 발견했습니다. 멀티모달 멀티에이전트 조정을 주장하는 프로덕션 시스템에 이것이 시사하는 바는 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다