Embodied VLAs: RT-2, OpenVLA, π0, GR00T

모델이 웹사이트에서 레시피를 읽고 주방 로봇으로 실행한 첫 사례는 RT-2(Google DeepMind, 2023년 7월)였습니다. RT-2는 행동(action)을 텍스트 토큰으로 이산화(discretize)하고, 웹 데이터와 로봇 행동 데이터를 함께 사용해 VLM을 공동 미세조정(co-fine-tune)했으며, 웹 규모 비전-언어 지식이 로봇 제어(robotic control)로 전이될 수 있음을 증명했습니다. OpenVLA(2024년 6월)는 공개 7B 기준 모델(reference)을 제공했습니다. Physical Intelligence의 π0 계열(2024-2025)은 흐름 정합(flow-matching) 방식의 행동 전문가(action experts)를 추가했습니다. NVIDIA의 GR00T N1(2025년 3월)은 휴머노이드 로봇을 위한 이중 시스템(System 1 / System 2) 제어를 대규모로 제공했습니다. VLA의 기본 단위, 즉 비전-언어-행동(vision-language-action) 모델은 보고, 읽고, 행동하는 하나의 모델입니다. 이는 이 phase의 이해 모델과 Phase 15의 자율 시스템(autonomous systems)을 잇는 다리입니다.

유형: Learn 언어: Python (표준 라이브러리, 행동 토크나이저 + VLA 추론 뼈대) 선수 지식: Phase 12 · 05 (LLaVA), Phase 15 (자율 시스템, 참조) 예상 시간: 약 180분

학습 목표

행동 토큰화(action tokenization)를 설명합니다. RT-2의 이산 구간 인코딩(discrete bin encoding), FAST의 효율적 행동 토큰, π0의 연속 흐름 정합(flow-matching) 행동을 구분합니다.
웹 데이터 + 로봇 데이터 공동 미세조정이 새로운 과제에 대한 일반 지식 전이(general-knowledge transfer)를 보존하는 이유를 설명합니다.
같은 로봇 과제에서 OpenVLA(공개 7B Llama+VLM), π0(흐름 정합), GR00T N1(이중 시스템)을 비교합니다.
Open X-Embodiment 데이터셋과 RT-X 학습 말뭉치(training corpus)로서의 역할을 말할 수 있습니다.

문제

자연어 지시로 집안일을 하는 로봇은 1970년대부터 연구 목표였습니다. 2020년대의 답은 비전-언어-행동(Vision-Language-Action; VLA) 모델입니다. VQA에 쓰던 VLM 아키텍처와 유사하지만, 출력이 텍스트가 아니라 행동입니다. 행동은 관절 토크(joint torques), 말단 장치 자세(end-effector poses), 이산 명령(discrete commands)일 수 있습니다.

VLA에만 있는 과제는 다음과 같습니다.

행동 공간(action spaces)은 연속적입니다. 관절 각도와 힘이 대표적입니다. 또한 고차원입니다. 7-DOF 팔 + 3-DOF 그리퍼는 30 Hz에서 10차원입니다.
로봇 전용 학습 데이터는 부족합니다. Open X-Embodiment는 약 100만 궤적(trajectory)을 갖지만, 웹 텍스트-이미지는 50억 개 이상입니다.
제어 주파수(control frequency)가 중요합니다. 30 Hz 제어 루프는 행동 하나당 33ms 예산을 의미합니다.
안전(safety)이 중요합니다. 잘못된 행동은 하드웨어, 사람, 재산을 손상시킬 수 있습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.체화된 VLA 모델가 해결하는 핵심 과제는?

2.체화된 VLA 모델 이전의 주요 한계는?

0/2 답변 완료

개념

행동 토큰화(RT-2)

RT-2의 요령은 각 관절 목표(joint target)를 양자화된 텍스트 토큰으로 표현하는 것입니다. 정규화된 [-1, 1] 범위를 256개의 구간(bin)으로 이산화하고, 각 구간을 어휘 ID(vocabulary ID)에 매핑합니다. 10-DOF 행동은 각 제어 단계마다 10개 토큰이 됩니다.

PaLM-X VLM을 다음 혼합 데이터로 공동 미세조정합니다.

웹 이미지-텍스트 쌍(captioning, VQA)
로봇 시연(robot demonstrations), 행동은 토큰으로 표현

모델은 "빨간 큐브를 집어라"(언어) -> 이미지(비전) -> 10토큰 행동 시퀀스(이산화된 관절 목표)를 봅니다. 웹 사전학습은 일반 지식 전이를 보존합니다. 예를 들어 "빠르게 움직이는 물체 쪽으로 이동해"에서 "빠르게 움직이는"이 로봇 학습 데이터에 없더라도 RT-2가 따를 수 있습니다.

RT-2 논문에서 추론 속도는 3-5 Hz였고, VLM의 자기회귀 디코딩(autoregressive decode)이 한계였습니다.

OpenVLA — 공개 7B 기준 모델

OpenVLA(Kim et al., 2024년 6월)는 공개 가중치(open-weights)를 가진 RT-2 등가물입니다. 7B Llama 백본, DINOv2 + SigLIP 이중 비전 인코더(dual vision encoder), 256 구간 행동 토큰화를 사용합니다.

Open X-Embodiment, 즉 22개 로봇에 걸친 970k 궤적으로 학습되었습니다. 새 로봇에 적응하기 위한 LoRA 미세조정 지원도 함께 제공합니다.

추론은 양자화(quantization)를 사용해 A100에서 4-5 Hz입니다. 느린 조작(slow manipulation)에는 충분하지만, 고주파 제어(high-frequency control)에는 부족합니다.

FAST 토크나이저 — 더 빠른 행동 디코딩

Pertsch et al.(2024)은 이산 구간 토큰화가 비효율적이라고 보였습니다. 대부분의 행동이 구간 공간(bin-space)의 작은 영역에 몰리기 때문입니다. FAST(Frequency-domain Action Sequence Tokenizer)는 이산 코사인 변환(Discrete Cosine Transform; DCT)으로 행동 시퀀스를 압축한 뒤 계수(coefficients)를 양자화합니다.

30단계 행동 궤적은 300개의 이산 구간 토큰이 아니라 약 10개의 FAST 토큰이 됩니다. 품질 손실 없이 추론 속도가 3-5배 빨라집니다.

π0와 흐름 정합(flow-matching) 행동

Physical Intelligence의 π0(Black et al., 2024년 10월)는 이산 행동 토큰을 흐름 정합 행동 전문가로 대체합니다.

작은 행동 트랜스포머가 VLM의 은닉 상태를 읽고, 정류 흐름(rectified flow)을 통해 연속적인 50단계 행동 시퀀스를 출력합니다.
행동 헤드는 흐름 정합 손실로 학습하고, VLM 사전학습은 그대로 유지합니다.
추론에서는 약 5번의 디노이징(denoising) 단계로 전체 행동 시퀀스를 출력하므로, 사실상 50 Hz 제어가 가능합니다.

π0의 주장은 OpenVLA와 Octo를 넓은 조작 과제군에서 이긴다는 것입니다. 연속 행동 공식화는 이산화가 파괴하는 부드러움(smoothness)을 보존합니다.

π0.5와 π0-FAST는 점진적 업그레이드입니다. π0-FAST는 FAST 토큰화와 흐름 정합을 결합합니다.

GR00T N1 — 휴머노이드를 위한 이중 시스템

NVIDIA의 GR00T N1(2025년 3월)은 30 DOF를 넘는 전신 휴머노이드 로봇을 위해 만들어졌습니다.

System 2: 장면과 지시를 읽고 약 1 Hz로 고수준 하위 목표(subgoals)를 만드는 큰 VLM입니다.
System 1: 하위 목표에 조건화되어 50-100 Hz의 저수준 관절 명령을 만드는 작은 행동 헤드 트랜스포머입니다.

이 분리는 카너먼(Kahneman)의 빠른 사고와 느린 사고에 대응됩니다. System 2는 계획하고, System 1은 행동합니다. 장점은 느린 VLM 크기의 계획이 빠른 제어를 막지 않고, System 1은 지연 시간을 위해 작게 유지된다는 점입니다.

GR00T N1.7(2025년 말)은 데이터 확장을 개선했습니다. GR00T는 Omniverse의 시뮬레이션-실세계(sim-to-real) 데이터로 미세조정합니다.

Open X-Embodiment

학습 데이터입니다. RT-X(2023년 10월)는 22개 로봇에 걸친 100만 궤적을 포함하는 22개 데이터셋을 모았습니다. Open X-Embodiment는 모두가 사용하는 말뭉치입니다.

ALOHA / Bridge V2 / Droid / RT-2 Kitchen / Language Table
각 샘플: 로봇 상태(robot state), 카메라 뷰(camera views), 지시(instruction), 행동 시퀀스
학습 위생(training hygiene): 행동 공간 통일, 관절 범위 정규화, 카메라 크기 조정

OpenVLA와 π0는 Open X-Embodiment로 학습합니다. 특정 로봇과의 도메인 격차(domain gap)는 과제별 시연 100-1000개에 대한 LoRA 미세조정으로 줄입니다.

공동 미세조정과 로봇 전용 학습

공동 미세조정은 웹 VQA 데이터와 로봇 궤적을 섞습니다. 비율이 중요합니다. VQA가 너무 많으면 모델이 행동을 잊고, 로봇 데이터가 너무 많으면 일반 지식을 잃습니다.

RT-2의 비율은 약 1:1입니다. OpenVLA는 웹 대 로봇 비율이 약 0.5:1입니다. π0도 비슷합니다. 정확한 비율은 데이터셋 크기마다 튜닝해야 할 하이퍼파라미터입니다.

로봇 전용 학습은 과제 특화 모델을 만들지만, 분포 밖(out-of-distribution) 지시에는 실패합니다. 공동 미세조정은 "빨간 큐브를 집어라(시연에 있음)"와 "왼쪽에서 세 번째로 큰 물체를 집어라(새로운 표현)"의 차이를 만듭니다.

안전과 행동 제한

모든 프로덕션 VLA에는 다음이 포함됩니다.

하드 관절 제한: 사양을 넘는 토크를 걸 수 없게 합니다.
속도 제한: 부드럽게 클리핑합니다.
작업공간 경계(workspace bounds): 말단 장치가 테이블 밖으로 나갈 수 없게 합니다.
새로운 과제에 대한 사람 개입 승인(human-in-the-loop approval)

이들은 VLA 밖의 제어 계층(control-layer) 검사로 존재합니다. VLA의 출력은 명령이 아니라 제안입니다.

사용해보기

code/main.py는 다음을 포함합니다.

256 구간 행동 토큰화와 역토큰화(de-tokenization)
DCT + 양자화를 기반으로 한 FAST 토크나이저 스케치
이산 구간, FAST, 연속 흐름 사이의 행동 단계별 토큰 수 비교
RT-2 -> OpenVLA -> π0 -> GR00T 계보 요약

산출물 만들기

이 lesson은 outputs/skill-vla-action-format-picker.md를 만듭니다. 로봇 과제(조작, 내비게이션, 휴머노이드 전신)가 주어지면 이산 구간 + RT-2, FAST + OpenVLA, 흐름 정합 + π0, 이중 시스템 + GR00T 중 하나를 고릅니다.

연습문제

30 Hz 제어 속도의 10-DOF 팔이 있습니다. 256 구간 이산 토큰화는 초당 몇 개의 토큰을 출력합니까? 7B VLM이 따라갈 수 있습니까?
FAST 토큰화는 30단계 궤적을 약 10토큰으로 압축합니다. 궤적에 드럼 연주 같은 고주파 움직임(high-frequency motion)이 있으면 사용자는 무엇을 잃습니까?
π0의 흐름 정합 헤드는 약 5단계로 디노이징을 수행합니다. 이를 4-5 Hz 자기회귀 디코딩을 하는 OpenVLA와 처리량 관점에서 비교합니다.
GR00T의 System 1 / System 2 분리는 카너먼(Kahneman)에 대응됩니다. 이족 보행(bipedal walking)에 도움이 될 수 있는 다른 분리, 예를 들어 System 3를 제안합니다.
Open X-Embodiment 논문의 Section 4에서 데이터셋 큐레이션(dataset curation)을 읽습니다. 도메인 누수(domain leakage)를 막는 세 가지 큐레이션 규칙을 말합니다.

핵심 용어

용어	흔한 설명	실제 의미
VLA(Vision-Language-Action)	"비전-언어-행동"	이미지와 지시를 받아 행동 명령을 출력하는 모델
행동 토큰화(Action tokenization)	"이산 구간(bin)"	연속 관절 목표를 차원마다 256개 구간으로 양자화하고 각 구간을 어휘 ID로 만드는 방식
FAST 토크나이저(FAST tokenizer)	"주파수 행동 토큰"	DCT + 양자화로 30단계 궤적을 약 10토큰으로 압축하는 방식
공동 미세조정(Co-fine-tune)	"웹 + 로봇 섞기"	일반 지식을 보존하기 위해 로봇 시연과 웹 VQA 데이터를 함께 학습하는 방식
흐름 정합 행동 헤드(Flow-matching action head)	"π0 연속 출력"	정류 흐름(rectified flow)으로 50단계 행동 시퀀스를 출력하는 작은 트랜스포머
System 1 / System 2	"이중 시스템 제어"	큰 VLM은 느리게 계획하고 작은 행동 헤드는 빠르게 행동하는 GR00T 패턴
Open X-Embodiment	"RT-X 데이터셋"	100만 궤적의 교차 로봇 데이터셋이며 주요 학습 말뭉치

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

vla-action-format-picker

Pick an action format (discrete bin, FAST, flow-matching, dual-system) and VLA family (RT-2, OpenVLA, π0, GR00T) for a robot task.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.프로덕션에서 체화된 VLA 모델의 가장 중요한 설계 원칙은?

2.체화된 VLA 모델가 올바른 선택이 아닌 경우는?

3.체화된 VLA 모델는 AI 생태계에 어떻게 들어맞나요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

Omni 모델 — Thinker-Talker

다음 강의

문서와 다이어그램 이해