벤치마크: WebArena와 OSWorld

WebArena는 네 개의 자체 호스팅(self-hosted) 앱 위에서 웹 에이전트(web-agent) 능력을 테스트합니다. OSWorld는 Ubuntu, Windows, macOS 전반에서 데스크톱 에이전트(desktop-agent) 능력을 테스트합니다. 공개 당시(2023-2024) 두 벤치마크 모두 최고 수준 에이전트와 사람 사이의 큰 격차를 보여줬습니다. 격차는 좁아지고 있지만, 실패 양상은 바뀌지 않았습니다.

유형: Learn 언어: Python (stdlib) 선수 학습: Phase 14 · 19 (SWE-bench, GAIA) 소요 시간: 약 60분

학습 목표

  • WebArena의 네 자체 호스팅 앱과 실행 기반 평가(execution-based evaluation)가 중요한 이유를 설명합니다.
  • OSWorld가 접근성 API(accessibility API) 대신 실제 운영체제(OS) 스크린샷(screenshot)을 사용하는 이유를 설명합니다.
  • OSWorld의 두 주요 실패 양상인 GUI 그라운딩(GUI grounding)과 운영 지식(operational knowledge)을 말할 수 있습니다.
  • OSWorld-G와 OSWorld-Human이 기본 벤치마크(base benchmark) 위에 무엇을 추가하는지 요약합니다.

문제

범용 에이전트(generalist agent)는 도구를 호출할 수 있습니다. 그렇다면 쇼핑 결제(checkout)를 완료하기 위해 브라우저에서 20번 클릭할 수 있을까요? 키보드와 마우스만 사용해 Linux 머신(Linux box)을 설정할 수 있을까요? WebArena와 OSWorld는 이 질문에 답합니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.WebArena가 라이브 웹사이트 대신 자체 호스팅 앱을 사용하는 이유는 무엇인가요?

2.OSWorld가 데스크톱 에이전트에서 식별한 두 가지 주요 실패 양상은 무엇인가요?

0/2 답변 완료

개념

WebArena (Zhou et al., ICLR 2024)

  • 네 개의 자체 호스팅 웹 앱(web app)에 걸친 812개의 긴 범위 작업입니다. 쇼핑 사이트, 포럼, GitLab류 개발 도구, 비즈니스 CMS(business CMS)가 포함됩니다.
  • 유틸리티(utility)로 지도(map), 계산기(calculator), 스크래치패드(scratchpad)가 추가됩니다.
  • 평가는 gym API를 통한 실행 기반 방식입니다. 주문이 실제로 들어갔는가, 이슈(issue)가 닫혔는가, CMS 페이지가 업데이트되었는가를 봅니다.
  • 공개 당시 최고 GPT-4 에이전트(agent)는 14.41% 성공률을 기록했고, 사람은 78.24%였습니다.

자체 호스팅이라는 구성 방식(framing)은 중요합니다. 대상 앱이 고정되어 재현 가능하기 때문에 벤치마크가 불안정하게 흔들리지(flaky) 않습니다.

확장

  • VisualWebArena — 성공 여부가 이미지 해석에 달려 있는 시각 기반 작업(visually grounded task)입니다. 스크린샷이 일급 관찰값(first-class observation)으로 사용됩니다.
  • TheAgentCompany(2024년 12월) — 터미널(terminal)과 코딩을 추가합니다. 실제 원격 근무 환경(remote-work environment)에 더 가깝습니다.

OSWorld (Xie et al., NeurIPS 2024)

  • Ubuntu, Windows, macOS 전반의 실제 컴퓨터 작업(computer task) 369개입니다.
  • 실제 애플리케이션을 키보드(keyboard)와 마우스(mouse)로 자유롭게 제어합니다.
  • 관찰값은 1920x1080 스크린샷입니다.
  • 공개 당시 최고 모델은 12.24%, 사람은 72.36%였습니다.

주요 실패 양상

  1. GUI 그라운딩(GUI grounding). 픽셀(pixel)에서 요소(element)로 매핑하는 문제입니다. 모델은 1920x1080 화면에서 UI 요소(UI element)를 안정적으로 위치시키는 데 어려움을 겪습니다.
  2. 운영 지식(Operational knowledge). 어떤 메뉴에 설정이 있는지, 어떤 키보드 단축키(keyboard shortcut)를 쓰는지, 어떤 설정 패널(preference pane)을 열어야 하는지에 관한 지식입니다. 사람이 수년 동안 쌓는 긴 꼬리(long tail) 지식입니다.

후속 연구

  • OSWorld-G — 564개 그라운딩 전용 샘플(grounding-only sample)과 Jedi 학습 세트(training set)입니다. 그라운딩과 계획(planning)을 분해해 따로 측정할 수 있게 합니다.
  • OSWorld-Human — 사람이 수작업으로 만든 정답 행동 궤적(gold action trajectories)입니다. 최상위 에이전트가 필요한 것보다 1.4~2.7배 더 많은 단계를 사용한다는 궤적 효율 격차(trajectory-efficiency gap)를 보여줍니다.

왜 중요한가

Claude Computer Use, OpenAI CUA, Gemini 2.5 Computer Use(21강)는 모두 WebArena와 OSWorld 형태의 워크로드(workload)로 학습됩니다. 벤치마크가 목표(target)이고, 프로덕션 모델(production model)은 그 목표에 대한 출시된 답(shipped answer)입니다.

벤치마킹이 잘못되는 지점

  • 스크린샷 전용 평가(Screenshot-only evals). OSWorld는 스크린샷 기반입니다. DOM이나 접근성 API를 사용하는 에이전트를 OSWorld에서 평가하면 그라운딩 과제(grounding challenge)를 놓칩니다.
  • 궤적 길이(Trajectory length) 무시. 성공률만 채점하면 OSWorld-Human이 드러낸 1.4~2.7배 단계 비효율(step inefficiency)을 놓칩니다.
  • 낡은 자체 호스팅 앱. WebArena의 앱은 특정 버전으로 고정되어 있습니다. 재선별(re-curation) 없이 업데이트하면 비교 가능성이 깨집니다.

만들어보기

code/main.py는 장난감 웹 에이전트 평가 장치(web-agent harness)를 구현합니다.

  • 최소 "쇼핑 앱(shopping app)" 상태 머신(state machine)입니다. list_items, add_to_cart, checkout이 있습니다.
  • 3개 작업(task)에 대한 정답 궤적(gold trajectory)입니다.
  • 각 작업을 시도하는 스크립트형 에이전트입니다.
  • 실행 기반 평가기(evaluator), 즉 상태 확인(state check)과 궤적 효율 지표(trajectory-efficiency metric), 즉 정답 대비 단계 수를 포함합니다.

실행합니다.

python3 code/main.py

출력은 작업별 성공률(success rate)과 궤적 효율(trajectory efficiency)을 보여줍니다. OSWorld-Human의 방법론을 닮았습니다.

사용해보기

  • WebArena Verified를 내부 클러스터(cluster)에 자체 호스팅하여 지속 평가(continuous evaluation)에 사용합니다.
  • OSWorld는 데스크톱 에이전트용 VM 플릿(VM fleet)에서 사용합니다.
  • Computer-use agents(21강) — Claude, OpenAI CUA, Gemini는 모두 이런 워크로드에서 학습되었습니다.
  • 자체 제품 흐름(product flows) — 상위 20개 작업에 대한 정답 궤적을 수집하고 매주 에이전트를 실행합니다.

산출물 만들기

outputs/skill-web-desktop-harness.md는 실행 기반 평가와 궤적 효율 지표를 가진 웹/데스크톱 에이전트 평가 장치를 만듭니다.

연습문제

  1. 장난감 평가 장치에 두 번째 앱, 예를 들어 포럼(forum)을 추가하세요. 작업 3개와 정답 궤적을 작성합니다.
  2. 작업별 궤적 효율 보고(trajectory-efficiency reporting)를 추가하세요. 장난감 예제에서 에이전트는 정답 기준 대비 1배, 2배, 3배 중 어디에 있나요?
  3. "방해(distractor)" 도구를 구현하세요. 정답 궤적이 절대 쓰지 않는 도구입니다. 스크립트형 에이전트가 유혹을 받나요?
  4. OSWorld-G를 읽어보세요. 자체 평가(eval)에서 그라운딩 실패(grounding failure)와 계획 실패(planning failure)를 어떻게 분리하겠습니까?
  5. WebArena의 앱 README를 읽어보세요. 고정된 앱 버전 중 하나를 업그레이드하면 무엇이 깨지나요?

핵심 용어

용어흔한 설명실제 의미
WebArena"웹 에이전트 벤치마크"4개 자체 호스팅 앱 전반의 812개 작업입니다. gym 스타일 평가(gym-style evaluation)를 사용합니다.
VisualWebArena"시각 WebArena"시각적으로 그라운딩된 WebArena입니다. 스크린샷이 관찰값입니다.
OSWorld"데스크톱 에이전트 벤치마크"실제 Ubuntu/Windows/macOS 위의 369개 작업입니다.
GUI 그라운딩(GUI grounding)"픽셀에서 요소로 매핑하기"모델이 1920x1080 화면에서 UI 요소를 위치시키는 일입니다.
운영 지식(Operational knowledge)"OS 사용 노하우"어떤 메뉴, 단축키, 설정 패널을 써야 하는지 아는 지식입니다.
OSWorld-G"그라운딩 평가 모음"564개 그라운딩 전용 샘플과 학습 세트입니다.
OSWorld-Human"정답 궤적"효율을 측정하기 위한 사람 전문가의 행동 순서(action sequence)입니다.
궤적 효율(Trajectory efficiency)"정답 대비 단계 수"에이전트 단계 수(step count)를 사람이 수행한 최소 단계 수로 나눈 값입니다.

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

web-desktop-harness

Build a WebArena/OSWorld-style harness with execution-based evaluation and trajectory-efficiency metrics.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.OSWorld-Human은 최상위 에이전트가 사람 전문가보다 1.4~2.7배 더 많은 단계를 사용한다는 것을 밝혔습니다. 이 지표가 단순 성공률 너머로 중요한 이유는 무엇인가요?

2.OSWorld-G가 기본 OSWorld 벤치마크에 추가하는 것은 무엇인가요?

3.팀이 DOM 기반 웹 에이전트를 OSWorld로 평가합니다. 이 설정의 문제는 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다