벤치마크: WebArena와 OSWorld
WebArena는 네 개의 자체 호스팅(self-hosted) 앱 위에서 웹 에이전트(web-agent) 능력을 테스트합니다. OSWorld는 Ubuntu, Windows, macOS 전반에서 데스크톱 에이전트(desktop-agent) 능력을 테스트합니다. 공개 당시(2023-2024) 두 벤치마크 모두 최고 수준 에이전트와 사람 사이의 큰 격차를 보여줬습니다. 격차는 좁아지고 있지만, 실패 양상은 바뀌지 않았습니다.
유형: Learn
언어: Python (stdlib)
선수 학습: Phase 14 · 19 (SWE-bench, GAIA)
소요 시간: 약 60분
학습 목표
- WebArena의 네 자체 호스팅 앱과 실행 기반 평가(execution-based evaluation)가 중요한 이유를 설명합니다.
- OSWorld가 접근성 API(accessibility API) 대신 실제 운영체제(OS) 스크린샷(screenshot)을 사용하는 이유를 설명합니다.
- OSWorld의 두 주요 실패 양상인 GUI 그라운딩(GUI grounding)과 운영 지식(operational knowledge)을 말할 수 있습니다.
- OSWorld-G와 OSWorld-Human이 기본 벤치마크(base benchmark) 위에 무엇을 추가하는지 요약합니다.
문제
범용 에이전트(generalist agent)는 도구를 호출할 수 있습니다. 그렇다면 쇼핑 결제(checkout)를 완료하기 위해 브라우저에서 20번 클릭할 수 있을까요? 키보드와 마우스만 사용해 Linux 머신(Linux box)을 설정할 수 있을까요? WebArena와 OSWorld는 이 질문에 답합니다.
개념
WebArena (Zhou et al., ICLR 2024)
- 네 개의 자체 호스팅 웹 앱(web app)에 걸친 812개의 긴 범위 작업입니다. 쇼핑 사이트, 포럼, GitLab류 개발 도구, 비즈니스 CMS(business CMS)가 포함됩니다.
- 유틸리티(utility)로 지도(map), 계산기(calculator), 스크래치패드(scratchpad)가 추가됩니다.
- 평가는 gym API를 통한 실행 기반 방식입니다. 주문이 실제로 들어갔는가, 이슈(issue)가 닫혔는가, CMS 페이지가 업데이트되었는가를 봅니다.
- 공개 당시 최고 GPT-4 에이전트(agent)는 14.41% 성공률을 기록했고, 사람은 78.24%였습니다.
자체 호스팅이라는 구성 방식(framing)은 중요합니다. 대상 앱이 고정되어 재현 가능하기 때문에 벤치마크가 불안정하게 흔들리지(flaky) 않습니다.
확장
- VisualWebArena — 성공 여부가 이미지 해석에 달려 있는 시각 기반 작업(visually grounded task)입니다. 스크린샷이 일급 관찰값(first-class observation)으로 사용됩니다.
- TheAgentCompany(2024년 12월) — 터미널(terminal)과 코딩을 추가합니다. 실제 원격 근무 환경(remote-work environment)에 더 가깝습니다.
OSWorld (Xie et al., NeurIPS 2024)
- Ubuntu, Windows, macOS 전반의 실제 컴퓨터 작업(computer task) 369개입니다.
- 실제 애플리케이션을 키보드(keyboard)와 마우스(mouse)로 자유롭게 제어합니다.
- 관찰값은 1920x1080 스크린샷입니다.
- 공개 당시 최고 모델은 12.24%, 사람은 72.36%였습니다.
주요 실패 양상
- GUI 그라운딩(GUI grounding). 픽셀(pixel)에서 요소(element)로 매핑하는 문제입니다. 모델은 1920x1080 화면에서 UI 요소(UI element)를 안정적으로 위치시키는 데 어려움을 겪습니다.
- 운영 지식(Operational knowledge). 어떤 메뉴에 설정이 있는지, 어떤 키보드 단축키(keyboard shortcut)를 쓰는지, 어떤 설정 패널(preference pane)을 열어야 하는지에 관한 지식입니다. 사람이 수년 동안 쌓는 긴 꼬리(long tail) 지식입니다.
후속 연구
- OSWorld-G — 564개 그라운딩 전용 샘플(grounding-only sample)과 Jedi 학습 세트(training set)입니다. 그라운딩과 계획(planning)을 분해해 따로 측정할 수 있게 합니다.
- OSWorld-Human — 사람이 수작업으로 만든 정답 행동 궤적(gold action trajectories)입니다. 최상위 에이전트가 필요한 것보다 1.4~2.7배 더 많은 단계를 사용한다는 궤적 효율 격차(trajectory-efficiency gap)를 보여줍니다.
왜 중요한가
Claude Computer Use, OpenAI CUA, Gemini 2.5 Computer Use(21강)는 모두 WebArena와 OSWorld 형태의 워크로드(workload)로 학습됩니다. 벤치마크가 목표(target)이고, 프로덕션 모델(production model)은 그 목표에 대한 출시된 답(shipped answer)입니다.
벤치마킹이 잘못되는 지점
- 스크린샷 전용 평가(Screenshot-only evals). OSWorld는 스크린샷 기반입니다. DOM이나 접근성 API를 사용하는 에이전트를 OSWorld에서 평가하면 그라운딩 과제(grounding challenge)를 놓칩니다.
- 궤적 길이(Trajectory length) 무시. 성공률만 채점하면 OSWorld-Human이 드러낸 1.4~2.7배 단계 비효율(step inefficiency)을 놓칩니다.
- 낡은 자체 호스팅 앱. WebArena의 앱은 특정 버전으로 고정되어 있습니다. 재선별(re-curation) 없이 업데이트하면 비교 가능성이 깨집니다.
만들어보기
code/main.py는 장난감 웹 에이전트 평가 장치(web-agent harness)를 구현합니다.
- 최소 "쇼핑 앱(shopping app)" 상태 머신(state machine)입니다.
list_items, add_to_cart, checkout이 있습니다.
- 3개 작업(task)에 대한 정답 궤적(gold trajectory)입니다.
- 각 작업을 시도하는 스크립트형 에이전트입니다.
- 실행 기반 평가기(evaluator), 즉 상태 확인(state check)과 궤적 효율 지표(trajectory-efficiency metric), 즉 정답 대비 단계 수를 포함합니다.
실행합니다.
python3 code/main.py
출력은 작업별 성공률(success rate)과 궤적 효율(trajectory efficiency)을 보여줍니다. OSWorld-Human의 방법론을 닮았습니다.
사용해보기
- WebArena Verified를 내부 클러스터(cluster)에 자체 호스팅하여 지속 평가(continuous evaluation)에 사용합니다.
- OSWorld는 데스크톱 에이전트용 VM 플릿(VM fleet)에서 사용합니다.
- Computer-use agents(21강) — Claude, OpenAI CUA, Gemini는 모두 이런 워크로드에서 학습되었습니다.
- 자체 제품 흐름(product flows) — 상위 20개 작업에 대한 정답 궤적을 수집하고 매주 에이전트를 실행합니다.
산출물 만들기
outputs/skill-web-desktop-harness.md는 실행 기반 평가와 궤적 효율 지표를 가진 웹/데스크톱 에이전트 평가 장치를 만듭니다.
연습문제
- 장난감 평가 장치에 두 번째 앱, 예를 들어 포럼(forum)을 추가하세요. 작업 3개와 정답 궤적을 작성합니다.
- 작업별 궤적 효율 보고(trajectory-efficiency reporting)를 추가하세요. 장난감 예제에서 에이전트는 정답 기준 대비 1배, 2배, 3배 중 어디에 있나요?
- "방해(distractor)" 도구를 구현하세요. 정답 궤적이 절대 쓰지 않는 도구입니다. 스크립트형 에이전트가 유혹을 받나요?
- OSWorld-G를 읽어보세요. 자체 평가(eval)에서 그라운딩 실패(grounding failure)와 계획 실패(planning failure)를 어떻게 분리하겠습니까?
- WebArena의 앱 README를 읽어보세요. 고정된 앱 버전 중 하나를 업그레이드하면 무엇이 깨지나요?
핵심 용어
| 용어 | 흔한 설명 | 실제 의미 |
|---|
| WebArena | "웹 에이전트 벤치마크" | 4개 자체 호스팅 앱 전반의 812개 작업입니다. gym 스타일 평가(gym-style evaluation)를 사용합니다. |
| VisualWebArena | "시각 WebArena" | 시각적으로 그라운딩된 WebArena입니다. 스크린샷이 관찰값입니다. |
| OSWorld | "데스크톱 에이전트 벤치마크" | 실제 Ubuntu/Windows/macOS 위의 369개 작업입니다. |
| GUI 그라운딩(GUI grounding) | "픽셀에서 요소로 매핑하기" | 모델이 1920x1080 화면에서 UI 요소를 위치시키는 일입니다. |
| 운영 지식(Operational knowledge) | "OS 사용 노하우" | 어떤 메뉴, 단축키, 설정 패널을 써야 하는지 아는 지식입니다. |
| OSWorld-G | "그라운딩 평가 모음" | 564개 그라운딩 전용 샘플과 학습 세트입니다. |
| OSWorld-Human | "정답 궤적" | 효율을 측정하기 위한 사람 전문가의 행동 순서(action sequence)입니다. |
| 궤적 효율(Trajectory efficiency) | "정답 대비 단계 수" | 에이전트 단계 수(step count)를 사람이 수행한 최소 단계 수로 나눈 값입니다. |
더 읽을거리