AI Scientist v2 — 워크숍 수준 자율 연구(Workshop-Level Autonomous Research)

Sakana의 AI Scientist v2(Yamada et al., arXiv:2504.08066)는 가설 수립, 코드 작성, 실험, 그림 제작, 논문 작성, 제출까지 연구 전 과정의 루프(loop)를 자율적으로 실행합니다. 이 시스템은 자신이 생성한 논문이 ICLR 2025 워크숍에서 동료 평가(Peer Review)를 통과한 첫 사례로 기록되었습니다. 한편 독립 평가(Beel et al.)에서는 실험의 42%가 코딩 오류(coding error)로 실패했고, 문헌 조사(Literature Review) 단계가 이미 확립된 개념을 새롭다(novel)고 잘못 표시하는 경우가 잦았다고 보고되었습니다. Sakana의 공식 문서 또한 이 코드베이스(codebase)가 대규모 언어 모델(LLM)이 작성한 코드를 직접 실행한다는 점을 경고하면서 도커(Docker) 격리 사용을 권장합니다. 이 두 측면을 함께 이해하는 것이 이 강의의 핵심입니다.

유형: Learn 언어: Python (표준 라이브러리; 연구 루프 상태 기계 장난감 모델) 선수 학습: Phase 15 · 03 (AlphaEvolve), Phase 15 · 04 (DGM) 예상 시간: 약 60분

문제

연구는 열린 결말의 과제(open-ended task)입니다. AlphaEvolve의 알고리즘 탐색(algorithmic search)이나 DGM의 벤치마크에 묶인 자기 수정(benchmark-bounded self-modification)과 달리, 연구 결과에는 기계가 자동으로 확인할 수 있는 정합성 기준(correctness criterion)이 존재하지 않습니다. 논문은 단위 시험(unit test)이 아니라 평가자(reviewer)가 판단합니다. 그래서 이 루프는 닫기가 더 어렵습니다. 동시에 연구야말로 진보가 복리로 쌓이는 영역이기 때문에, 이 루프를 닫을 수만 있다면 그만큼 더 큰 가치를 가집니다.

AI Scientist v1(Sakana, 2024)은 사람이 직접 작성한 템플릿(template)에서 출발해 이 루프를 닫았습니다. LLM은 고정된 골조(scaffolding) 안에서 실험을 채워 넣는 역할을 맡았습니다. AI Scientist v2(Yamada et al., 2025)는 시각-언어 모델(Vision-Language Model; VLM)의 비평 루프(critique loop)와 결합된 에이전트 기반 트리 탐색(agentic tree search)을 사용해 이 템플릿 요구를 제거했습니다. 시스템은 아이디어를 생성하고, 실험을 구현하고, 그림을 만들고, 논문을 작성하고, 평가자 피드백을 받아 다시 반복합니다.

동료 평가의 결론은 이렇습니다. v2가 생성한 논문 한 편이 출처를 공개(disclosure)한 채 ICLR 2025 워크숍에 채택되었습니다. 독립 평가의 결론은 이렇습니다. 시스템은 아직 신뢰성과는 거리가 멉니다. 두 결론 모두 사실입니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.AI Scientist v2가 v1과 다르게 연구를 생성하는 방식의 차이점은 무엇인가요?

2.Beel 등의 독립 평가에서 v2의 실험 신뢰성에 대해 무엇을 발견했나요?

0/2 답변 완료

개념

아키텍처

  1. 아이디어 생성(Idea generation). LLM이 주제와 선행 연구를 조건으로 받아 연구 아이디어를 제안합니다. v1은 템플릿을 사용했고, v2는 가설 공간(hypothesis space)에서 에이전트 기반 탐색을 사용합니다.
  2. 새로움 확인(Novelty check). 문헌 검색(literature retrieval) 단계가 해당 아이디어가 이미 출판된 것인지 확인합니다. Beel et al.의 평가에서 오표시(mislabel)가 보고된 단계로, 이미 확립된 방법을 새로운 것으로 분류하는 일이 잦았습니다.
  3. 실험 계획(Experiment plan). 에이전트가 실험 절차(protocol)를 작성하고 그에 맞는 코드를 씁니다.
  4. 실행(Execution). 코드는 샌드박스(sandbox) 안에서 실행됩니다. 실패는 재시도 루프(retry loop)로 되돌아갑니다. Beel et al.의 측정에 따르면 이 단계에서 실험의 42%가 코딩 오류로 실패했습니다.
  5. 그림 생성(Figure generation). 시각-언어 모델이 생성된 그림을 읽고 명확성을 위해 다시 그립니다. 이것이 v2의 핵심 기술적 추가 요소입니다.
  6. 논문 작성(Writeup). LLM이 논문 초안을 작성하고 내부 평가자(internal reviewer)와 반복적으로 다듬습니다.
  7. 선택 단계: 제출(Submission). 작성된 논문을 학회나 워크숍 같은 발표 장소(venue)에 제출합니다.

워크숍 채택이 의미하는 것

v2가 생성한 논문 한 편이 ICLR 2025 워크숍의 동료 평가를 통과했습니다. 저자들은 프로그램 위원회(program committee)에 해당 논문의 출처를 공개했습니다. 이 채택 사례는 하나의 데이터 포인트(data point)일 뿐, 이 시스템이 "연구를 한다"고 주장할 면허증은 아닙니다.

중요한 맥락이 있습니다. 워크숍 논문은 일반적으로 본 학회(main-conference) 논문보다 채택 기준이 낮습니다. 동료 평가는 잡음(noise)이 많고, 어떤 날에는 제출물의 적은 비율만 채택됩니다. 한 번의 성공은 개념 증명(proof of concept)이지 신뢰성에 대한 주장(reliability claim)이 아닙니다. Nature 2026 논문은 이 종단 간(end-to-end) 루프를 문서화했지만, 그 논문 자체도 사람 연구자가 공동 저자로 참여한 것이므로 "시스템이 Nature 논문을 썼다"는 의미는 아닙니다.

독립 평가에서 발견된 것

Beel et al.(arXiv:2502.14297)은 외부 독립 평가를 수행했습니다. 주요 결과는 다음과 같습니다.

  • 실험 실패(Experiment failures). 실험의 42%가 코딩 오류로 실패했습니다. 잘못된 임포트(import), 형상 불일치(shape mismatch), 정의되지 않은 변수(undefined variable)가 주된 원인이었습니다. 재시도 루프가 일부는 잡아냈지만 전부 잡지는 못했습니다.
  • 새로움 오표시(Novelty mislabeling). 문헌 검색 단계가 이미 확립된 개념을 새로운 것으로 표시하는 일이 잦았습니다. 이는 연구판 환각(hallucination)에 해당합니다.
  • 발표 품질 격차(Presentation-quality gap). 시각-언어 모델 기반 그림 비평은 출판 수준(publication-grade)의 시각 자료를 만들어 냈으며, 그 아래에 깔린 실험적 약점을 가렸습니다.

이번 단계(phase)에서는 마지막 항목이 가장 중요합니다. 설득력 있어 보이는 산출물을 만들어 내지만 실제로는 설득력 있는 연구를 하지 못하는 시스템은, 명백하게 실패하는 시스템보다 오히려 더 위험합니다. 평가는 그림에서 멈춰서는 안 되고 그 밑에 깔린 주장(claim)에까지 도달해야 합니다.

샌드박스 탈출(Sandbox escape) 우려

Sakana의 저장소(repository) README는 다음과 같이 경고합니다.

Due to the nature of this software, which executes LLM-generated code, we cannot guarantee safety. There are risks of dangerous packages, uncontrolled web access, and spawning of unintended processes. Use at your own risk and consider Docker isolation.

이것은 검증되지 않은 영역(domain)에서 자율성(autonomy)이 실제로 어떻게 운영되는지 보여 줍니다. LLM이 코드를 작성하고, 그 코드가 실행되며, 코드는 해당 프로세스가 허용된 모든 일을 수행할 수 있습니다. 파일 시스템(filesystem), 네트워크(network), 프로세스 동작(process action)을 엄격히 제한하는 샌드박스가 없다면, 자기 주도적인 연구 에이전트(self-directed research agent)는 데이터를 유출하거나, 연산 자원(compute)을 소모하거나, 심지어 스스로의 코드를 다시 쓸 수도 있습니다.

AlphaEvolve의 샌드박스 이야기는 비교적 쉬운 편입니다. 평가기(evaluator)가 엄격하기 때문입니다. 반면 AI Scientist v2의 루프는 열린 목표(open-ended goal)를 가지고 열린 코드를 실행합니다. 그래서 더 강한 격리(isolation)가 필요합니다. 도커는 최소 요건이며, 그보다는 seccomp나 gVisor 같은 추가 격리 계층이 더 바람직합니다. 또한 시스템을 떠나기 전 모든 제출물에 대해 사람에 의한 수동 평가(manual review)가 반드시 필요합니다.

첨단(frontier) 자율 시스템 스택에서의 v2의 위치

SystemTargetOutput kindEvaluatorKnown failure
AlphaEvolve알고리즘(algorithms)코드(code)단위 시험 + 벤치마크평가기의 엄격함에 의해 제한됨
DGM에이전트 골조(agent scaffolding)코드SWE-bench보상 해킹(reward hacking)
AI Scientist v2연구 논문(research papers)텍스트 + 코드 + 그림동료 평가(약함)실험 실패, 새로움 오표시, 정리(polish)가 약점을 가림

v2는 세 시스템 중 자동 평가기가 가장 약하고, 산출물 표면(output surface)이 가장 넓으며, 공개 산출물(public artifact)로 이어지는 경로가 가장 짧습니다. 결국 샌드박스, 평가, 출처 공개와 같은 운영적 통제 장치가 안전 작업의 대부분을 담당하게 됩니다.

사용해보기

code/main.py는 v2의 루프를 상태 기계(state machine)로 시뮬레이션합니다. 흐름은 아이디어 → 새로움 확인 → 실험 → 그림 → 논문 작성 → 평가 → 채택 또는 반복(accept-or-iterate)입니다. 각 상태마다 Beel et al.의 발견에서 가져온 설정 가능한 실패 확률(failure probability)이 부여되어 있습니다. 시뮬레이터를 N번의 루프로 실행하고 다음을 집계해 봅니다.

  • 얼마나 많은 아이디어가 제출 단계까지 도달하는지.
  • 제출된 논문 중 몇 편이 다듬어진 외형 아래 치명적인 실험 결함을 숨기고 있는지.
  • 재시도 예산(retry budget)이 품질(quality)과 산출량(yield) 사이에서 어떤 절충(trade-off)을 만들어 내는지.

산출물 만들기

outputs/skill-ai-scientist-sandbox-review.md는 연구 루프 에이전트가 만들어 낸 산출물이 샌드박스 밖으로 나가기 전에 적용하는 이중 관문(two-gate) 검토 체크리스트입니다.

연습문제

  1. (쉬움) 기본 매개변수(parameter)로 code/main.py를 실행합니다. 전체 루프 실행 중 몇 %가 "깨끗한(clean)" 논문을 만들어 내나요? 또 몇 %가 그림 비평이 정리해 가린 실험 실패 결함을 가진 논문을 만들어 내나요?

  2. (중간) 기본값은 이미 Beel et al.의 42% / 25% 수치를 사용합니다. --experiment-failure 0.20 --novelty-mislabel 0.10으로 한 번, 이어서 --experiment-failure 0.60 --novelty-mislabel 0.40으로 한 번 다시 실행해 봅니다. "정리되었지만 결함이 있는(polished-but-flawed)" 논문의 비중이 두 실행 사이에서 어떻게 달라지나요?

  3. (중간) Sakana의 AI Scientist v2 저장소 README에서 샌드박스 요구사항 부분을 읽습니다. 여러 날에 걸친 자율 실행(multi-day autonomous run)을 위해 도커 외에 추가로 적용할 만한 제한 두 가지를 제시하세요.

  4. (어려움) Beel et al. 4장의 발표 품질 격차 부분을 읽습니다. 외형은 다듬어져 있지만 실험적으로 결함이 있는 논문을 잡아낼 수 있는 추가 평가기(evaluator) 하나를 설계하세요.

  5. (어려움) 연구 에이전트의 산출물에 대한 사람 평가 절차(human-review protocol)를 제안하세요. "박사 한 명이 모든 논문을 읽는다"보다 더 잘 확장(scale)되어야 합니다. 병목 지점을 식별하고 그 병목을 중심으로 절차를 설계하세요.

핵심 용어

용어흔한 설명실제 의미
AI Scientist v1"Sakana의 템플릿 기반 연구 에이전트"고정된 골조 안에 실험만 채워 넣는 구조이다.
AI Scientist v2"템플릿 없이 동작하는 연구 에이전트"시각-언어 모델(VLM) 그림 비평이 결합된 에이전트 기반 트리 탐색(agentic tree search)이다.
에이전트 기반 트리 탐색(Agentic tree search)"가지를 치며 진행하는 연구 에이전트"여러 실험 계획을 병렬로 확장하고 내부 비평가(internal critic)로 가지치기(prune)하는 방식이다.
시각-언어 모델 비평(Vision-language critique)"그림에 입히는 VLM 정리"다중 모달(multimodal) 모델이 그림을 읽고 명확성을 위해 다시 그리는 단계이다.
문헌 검색(Literature retrieval)"새로움 확인"선행 연구를 검색해 아이디어가 새로운 것인지 확인하는 단계로, 오표시 사례가 문서화되어 있다.
정리에 의한 가림(Polish masking)"예쁘게 만든 논문, 깨진 연구"발표 품질이 실험 품질을 초과해 약점을 가리는 현상이다.
샌드박스 탈출(Sandbox escape)"LLM이 작성한 코드가 밖으로 새어 나간다"에이전트가 실행한 코드가 루프 설계자가 의도하지 않은 동작을 수행하는 경우이다.

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

ai-scientist-sandbox-review

Two-gate review checklist for research-loop agent outputs before anything leaves the sandbox.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.연구 에이전트에서 정리에 의한 가림(polish masking)이 명백한 실패보다 더 위험한 이유는 무엇인가요?

2.Sakana README가 LLM 생성 코드 실행을 경고하며 도커 격리를 권장하는 것이 연구 에이전트에서 특히 중요한 이유는?

3.v2 논문 한 편이 ICLR 2025 워크숍에 채택되었습니다. 이를 시스템이 연구를 한다는 증거로 다루지 말라고 경고하는 이유는?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다