벤치마크: WebArena와 OSWorld

WebArena는 네 개의 자체 호스팅(self-hosted) 앱 위에서 웹 에이전트(web-agent) 능력을 테스트합니다. OSWorld는 Ubuntu, Windows, macOS 전반에서 데스크톱 에이전트(desktop-agent) 능력을 테스트합니다. 공개 당시(2023-2024) 두 벤치마크 모두 최고 수준 에이전트와 사람 사이의 큰 격차를 보여줬습니다. 격차는 좁아지고 있지만, 실패 양상은 바뀌지 않았습니다.

유형: Learn 언어: Python (stdlib) 선수 학습: Phase 14 · 19 (SWE-bench, GAIA) 소요 시간: 약 60분

학습 목표

WebArena의 네 자체 호스팅 앱과 실행 기반 평가(execution-based evaluation)가 중요한 이유를 설명합니다.
OSWorld가 접근성 API(accessibility API) 대신 실제 운영체제(OS) 스크린샷(screenshot)을 사용하는 이유를 설명합니다.
OSWorld의 두 주요 실패 양상인 GUI 그라운딩(GUI grounding)과 운영 지식(operational knowledge)을 말할 수 있습니다.
OSWorld-G와 OSWorld-Human이 기본 벤치마크(base benchmark) 위에 무엇을 추가하는지 요약합니다.

문제

범용 에이전트(generalist agent)는 도구를 호출할 수 있습니다. 그렇다면 쇼핑 결제(checkout)를 완료하기 위해 브라우저에서 20번 클릭할 수 있을까요? 키보드와 마우스만 사용해 Linux 머신(Linux box)을 설정할 수 있을까요? WebArena와 OSWorld는 이 질문에 답합니다.

개념

WebArena (Zhou et al., ICLR 2024)

네 개의 자체 호스팅 웹 앱(web app)에 걸친 812개의 긴 범위 작업입니다. 쇼핑 사이트, 포럼, GitLab류 개발 도구, 비즈니스 CMS(business CMS)가 포함됩니다.
유틸리티(utility)로 지도(map), 계산기(calculator), 스크래치패드(scratchpad)가 추가됩니다.
평가는 gym API를 통한 실행 기반 방식입니다. 주문이 실제로 들어갔는가, 이슈(issue)가 닫혔는가, CMS 페이지가 업데이트되었는가를 봅니다.
공개 당시 최고 GPT-4 에이전트(agent)는 14.41% 성공률을 기록했고, 사람은 78.24%였습니다.

자체 호스팅이라는 구성 방식(framing)은 중요합니다. 대상 앱이 고정되어 재현 가능하기 때문에 벤치마크가 불안정하게 흔들리지(flaky) 않습니다.

확장

VisualWebArena — 성공 여부가 이미지 해석에 달려 있는 시각 기반 작업(visually grounded task)입니다. 스크린샷이 일급 관찰값(first-class observation)으로 사용됩니다.
TheAgentCompany(2024년 12월) — 터미널(terminal)과 코딩을 추가합니다. 실제 원격 근무 환경(remote-work environment)에 더 가깝습니다.

OSWorld (Xie et al., NeurIPS 2024)

Ubuntu, Windows, macOS 전반의 실제 컴퓨터 작업(computer task) 369개입니다.
실제 애플리케이션을 키보드(keyboard)와 마우스(mouse)로 자유롭게 제어합니다.
관찰값은 1920x1080 스크린샷입니다.
공개 당시 최고 모델은 12.24%, 사람은 72.36%였습니다.

주요 실패 양상

GUI 그라운딩(GUI grounding). 픽셀(pixel)에서 요소(element)로 매핑하는 문제입니다. 모델은 1920x1080 화면에서 UI 요소(UI element)를 안정적으로 위치시키는 데 어려움을 겪습니다.
운영 지식(Operational knowledge). 어떤 메뉴에 설정이 있는지, 어떤 키보드 단축키(keyboard shortcut)를 쓰는지, 어떤 설정 패널(preference pane)을 열어야 하는지에 관한 지식입니다. 사람이 수년 동안 쌓는 긴 꼬리(long tail) 지식입니다.

후속 연구

OSWorld-G — 564개 그라운딩 전용 샘플(grounding-only sample)과 Jedi 학습 세트(training set)입니다. 그라운딩과 계획(planning)을 분해해 따로 측정할 수 있게 합니다.
OSWorld-Human — 사람이 수작업으로 만든 정답 행동 궤적(gold action trajectories)입니다. 최상위 에이전트가 필요한 것보다 1.4~2.7배 더 많은 단계를 사용한다는 궤적 효율 격차(trajectory-efficiency gap)를 보여줍니다.

왜 중요한가

Claude Computer Use, OpenAI CUA, Gemini 2.5 Computer Use(21강)는 모두 WebArena와 OSWorld 형태의 워크로드(workload)로 학습됩니다. 벤치마크가 목표(target)이고, 프로덕션 모델(production model)은 그 목표에 대한 출시된 답(shipped answer)입니다.

벤치마킹이 잘못되는 지점

스크린샷 전용 평가(Screenshot-only evals). OSWorld는 스크린샷 기반입니다. DOM이나 접근성 API를 사용하는 에이전트를 OSWorld에서 평가하면 그라운딩 과제(grounding challenge)를 놓칩니다.
궤적 길이(Trajectory length) 무시. 성공률만 채점하면 OSWorld-Human이 드러낸 1.4~2.7배 단계 비효율(step inefficiency)을 놓칩니다.
낡은 자체 호스팅 앱. WebArena의 앱은 특정 버전으로 고정되어 있습니다. 재선별(re-curation) 없이 업데이트하면 비교 가능성이 깨집니다.

만들어보기

code/main.py는 장난감 웹 에이전트 평가 장치(web-agent harness)를 구현합니다.

최소 "쇼핑 앱(shopping app)" 상태 머신(state machine)입니다. list_items, add_to_cart, checkout이 있습니다.
3개 작업(task)에 대한 정답 궤적(gold trajectory)입니다.
각 작업을 시도하는 스크립트형 에이전트입니다.
실행 기반 평가기(evaluator), 즉 상태 확인(state check)과 궤적 효율 지표(trajectory-efficiency metric), 즉 정답 대비 단계 수를 포함합니다.

실행합니다.

python3 code/main.py

출력은 작업별 성공률(success rate)과 궤적 효율(trajectory efficiency)을 보여줍니다. OSWorld-Human의 방법론을 닮았습니다.

사용해보기

WebArena Verified를 내부 클러스터(cluster)에 자체 호스팅하여 지속 평가(continuous evaluation)에 사용합니다.
OSWorld는 데스크톱 에이전트용 VM 플릿(VM fleet)에서 사용합니다.
Computer-use agents(21강) — Claude, OpenAI CUA, Gemini는 모두 이런 워크로드에서 학습되었습니다.
자체 제품 흐름(product flows) — 상위 20개 작업에 대한 정답 궤적을 수집하고 매주 에이전트를 실행합니다.

산출물 만들기

outputs/skill-web-desktop-harness.md는 실행 기반 평가와 궤적 효율 지표를 가진 웹/데스크톱 에이전트 평가 장치를 만듭니다.

연습문제

장난감 평가 장치에 두 번째 앱, 예를 들어 포럼(forum)을 추가하세요. 작업 3개와 정답 궤적을 작성합니다.
작업별 궤적 효율 보고(trajectory-efficiency reporting)를 추가하세요. 장난감 예제에서 에이전트는 정답 기준 대비 1배, 2배, 3배 중 어디에 있나요?
"방해(distractor)" 도구를 구현하세요. 정답 궤적이 절대 쓰지 않는 도구입니다. 스크립트형 에이전트가 유혹을 받나요?
OSWorld-G를 읽어보세요. 자체 평가(eval)에서 그라운딩 실패(grounding failure)와 계획 실패(planning failure)를 어떻게 분리하겠습니까?
WebArena의 앱 README를 읽어보세요. 고정된 앱 버전 중 하나를 업그레이드하면 무엇이 깨지나요?

핵심 용어

용어	흔한 설명	실제 의미
WebArena	"웹 에이전트 벤치마크"	4개 자체 호스팅 앱 전반의 812개 작업입니다. gym 스타일 평가(gym-style evaluation)를 사용합니다.
VisualWebArena	"시각 WebArena"	시각적으로 그라운딩된 WebArena입니다. 스크린샷이 관찰값입니다.
OSWorld	"데스크톱 에이전트 벤치마크"	실제 Ubuntu/Windows/macOS 위의 369개 작업입니다.
GUI 그라운딩(GUI grounding)	"픽셀에서 요소로 매핑하기"	모델이 1920x1080 화면에서 UI 요소를 위치시키는 일입니다.
운영 지식(Operational knowledge)	"OS 사용 노하우"	어떤 메뉴, 단축키, 설정 패널을 써야 하는지 아는 지식입니다.
OSWorld-G	"그라운딩 평가 모음"	564개 그라운딩 전용 샘플과 학습 세트입니다.
OSWorld-Human	"정답 궤적"	효율을 측정하기 위한 사람 전문가의 행동 순서(action sequence)입니다.
궤적 효율(Trajectory efficiency)	"정답 대비 단계 수"	에이전트 단계 수(step count)를 사람이 수행한 최소 단계 수로 나눈 값입니다.

더 읽을거리

Zhou et al., WebArena (arXiv:2307.13854) — 네 앱으로 구성된 웹 벤치마크입니다.
Xie et al., OSWorld (arXiv:2404.07972) — 여러 운영체제를 아우르는(cross-OS) 데스크톱 벤치마크입니다.
Anthropic, Introducing computer use — Claude의 벤치마크 형태 능력(benchmark-shaped capability)을 설명합니다.
OpenAI, Computer-Using Agent — OSWorld와 WebArena 측정값을 확인할 수 있습니다.