오픈 웨이트 VLM 레시피 — 실제로 중요한 것 (Open-Weight VLM Recipes: What Actually Matters)

2024-2026년 오픈 웨이트(open-weight) VLM 문헌은 절제 실험표(ablation table)의 숲입니다. Apple의 MM1은 이미지 인코더(image encoder), 커넥터(connector), 데이터 혼합(data mix) 조합 13가지를 시험했습니다. Allen AI의 Molmo는 자세한 사람 캡션(human caption)이 GPT-4V 증류(distillation)보다 낫다는 점을 증명했습니다. Cambrian-1은 20개가 넘는 인코더를 비교했습니다. Idefics2는 다섯 축으로 이루어진 설계 공간(design space)을 정식화했습니다. Prismatic VLMs는 통제된 벤치마크에서 27개의 학습 레시피(training recipe)를 비교했습니다. 이 모든 잡음 속에서도 여러 논문에 걸쳐 반복적으로 유지되는 작은 결론들이 있습니다. 이미지 인코더는 커넥터 아키텍처보다 중요하고, 데이터 혼합은 그 둘보다 더 중요하며, 자세한 사람 캡션은 증류로 만든 합성 데이터보다 낫다는 것입니다. 이 강의는 여러분이 직접 모든 표를 읽지 않아도 되도록, 그 표들을 대신 읽어드립니다.

유형: Learn + lab 언어: Python (표준 라이브러리, 절제 실험표 파서 + 레시피 선택기) 선수 지식: Phase 12 · 05 (LLaVA 베이스라인) 예상 시간: 약 180분

학습 목표

VLM 설계 공간의 다섯 축인 이미지 인코더, 커넥터, LLM, 데이터 혼합, 해상도 스케줄(resolution schedule)을 말할 수 있습니다.
MM1 / Idefics2 / Cambrian-1의 절제 실험표를 읽고, 어떤 손잡이(knob)가 특정 벤치마크 점수를 움직이는지 예측할 수 있습니다.
연산 예산(compute budget)과 과제 구성(task mix)이 주어졌을 때, 새로운 VLM의 레시피(인코더, 커넥터, 데이터, 해상도)를 고를 수 있습니다.
동일한 토큰 수에서 자세한 사람 캡션이 GPT-4V 증류보다 우수한 이유를 설명할 수 있습니다.

문제

수백 개의 오픈 웨이트 VLM이 존재합니다. "좋은 모델"과 "최첨단(state-of-the-art) 모델" 사이의 차이는 대부분 아키텍처에서 나오지 않습니다. 그 차이는 데이터, 해상도 스케줄, 인코더 선택에서 나옵니다. 모델 성능이 기대보다 낮을 때 어떤 손잡이를 먼저 돌려야 하는지 아는 것은 500만 GPU-시간(GPU-hour) 규모의 실수를 막아줍니다.

2023년의 흐름(LLaVA-1.5, InstructBLIP, MiniGPT-4)은 캡션 쌍(caption-pair) 사전학습과 LLaVA-Instruct-150k 위에서 동작했습니다. 괜찮은 베이스라인이었지만 MMMU 점수가 약 35% 부근에서 한계를 보였습니다.

2024년의 흐름(MM1, Idefics2, Molmo, Cambrian-1, Prismatic VLMs)은 철저한 절제 실험을 수행했고, 그 결과는 놀라울 만큼 실용적이었습니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.VLM 레시피 절제 실험가 해결하는 핵심 과제는?

2.VLM 레시피 절제 실험 이전의 주요 한계는?

0/2 답변 완료

개념

다섯 축으로 이루어진 설계 공간

Idefics2(Laurençon et al., 2024)는 다음 다섯 축에 이름을 붙였습니다.

이미지 인코더(image encoder). CLIP ViT-L/14, SigLIP SO400m/14, DINOv2 ViT-g/14, InternViT-6B 등이 있습니다. 인코더는 패치 크기(patch size), 해상도, 사전학습 목표(pretraining objective)가 서로 다릅니다.
커넥터(connector). MLP(2-4 레이어), Q-Former(쿼리 32개 + 교차 어텐션), Perceiver Resampler(쿼리 64개), C-Abstractor(합성곱 + 이중 선형 풀링) 등이 있습니다.
언어 모델(language model). Llama-3 8B / 70B, Mistral 7B, Phi-3, Gemma-2, Qwen2.5 등이 있습니다. LLM 크기는 파라미터 비용을 지배합니다.
학습 데이터(training data). 캡션 쌍(CC3M, LAION), 인터리브 데이터(interleaved; OBELICS, MMC4), 지시 데이터(instruction; LLaVA-Instruct, ShareGPT4V, PixMo, Cauldron)가 있습니다.
해상도 스케줄(resolution schedule). 고정 224/336/448, AnyRes, 네이티브 동적(native dynamic) 등이 있습니다. 학습 중에 점진적으로 올릴 수도 있고 일정하게 유지할 수도 있습니다.

모든 양산형(production) VLM은 각 축에서 어떤 선택을 합니다. MMMU 점수의 분산은 대부분 1, 4, 5번 축, 즉 인코더, 데이터, 해상도로 설명되며, 어떤 커넥터를 골랐는지는 상대적으로 영향이 작습니다.

1번 축: 인코더가 커넥터보다 중요하다

MM1 Section 3.2는 CLIP ViT-L/14를 SigLIP SO400m/14로 바꾸는 것만으로 MMMU가 3점 이상 오른다는 점을 보였습니다. 반면 커넥터를 MLP에서 Perceiver Resampler로 바꿔도 효과는 1점에 못 미쳤습니다. Idefics2도 동일한 결과를 재현했습니다. SigLIP은 CLIP보다 낫고, 토큰 수가 같다면 Q-Former, MLP, Perceiver는 거의 비슷합니다.

Cambrian-1의 "Cambrian Vision Encoders Match-Up"(Tong et al., 2024)은 시각 중심 벤치마크(vision-centric benchmark)인 CV-Bench에서 20개가 넘는 인코더를 비교했습니다. 순위표(leaderboard) 상단은 DINOv2와 SigLIP 조합이 차지했고, CLIP은 중간 정도이며, ImageBind와 ViT-MAE는 하위에 위치했습니다. CLIP ViT-L에서 DINOv2 ViT-g/14로 바꿀 때 CV-Bench에서 약 5-7점 차이가 납니다.

2026년 기준 오픈 VLM의 기본 인코더는, 의미적(semantic) 특징과 밀집(dense) 특징을 함께 얻기 위한 SigLIP 2 SO400m/14입니다. 분할(segmentation)이나 그라운딩(grounding)이 필요하면 DINOv2 ViT-g/14 특징을 연결(concatenate)하기도 합니다. Cambrian의 "Spatial Vision Aggregator"가 그런 방식을 사용합니다.

2번 축: 커넥터 설계는 거의 차이가 없다

MM1, Idefics2, Prismatic, MM-Interleaved는 모두 같은 결론에 도달했습니다. 시각 토큰 수(visual-token count)가 고정되어 있으면 커넥터 아키텍처는 거의 영향을 주지 않습니다. 평균 풀링(mean-pooled)된 패치 위에 2-레이어 MLP를 얹은 방식은, 동일한 토큰 예산을 쓰는 쿼리 32개짜리 Q-Former와 1점 이내의 성능 차이만 보입니다.

정말 중요한 것은 토큰 수입니다. 시각 토큰이 많을수록 LLM 연산도 늘고, 어느 지점까지는 성능도 좋아집니다. 그 이후에는 수확 체감이 옵니다. 이미지당 64개 토큰은 OCR에 너무 적습니다. 대부분의 오픈 VLM에서는 576-1024개 토큰이 적정점(sweet spot)이며, 2048개 이상은 문서와 차트 과제에서만 도움이 됩니다.

Q-Former와 MLP의 차이는 품질 문제가 아니라 비용 문제입니다. Q-Former는 이미지 해상도와 무관하게 토큰을 32-64개로 제한합니다. MLP는 모든 패치 토큰을 그대로 내보냅니다. 고해상도 입력에서는 Q-Former가 LLM 컨텍스트를 절약해주고, 저해상도 입력에서는 둘의 차이가 잡음 수준에 가깝습니다.

3번 축: LLM 크기가 천장을 정한다

LLM을 7B에서 13B로 키우면 거의 모든 VLM 논문에서 MMMU가 안정적으로 2-4점 오릅니다. 70B에서는 대부분의 벤치마크가 포화됩니다. VLM의 멀티모달 추론 천장은 곧 LLM의 텍스트 추론 천장입니다. 시각 인코더는 LLM에 정보를 공급해줄 수는 있어도, LLM을 대신해 추론해주지는 못합니다.

Qwen2.5-VL-72B와 Claude Opus 4.7이 MMMU-Pro와 ScreenSpot-Pro에서 강한 이유도 여기에 있습니다. 언어 두뇌가 크기 때문입니다. 7B VLM은 영리한 커넥터 설계만으로 70B VLM을 대체할 수 없습니다.

4번 축: 데이터 — 자세한 사람 캡션이 증류보다 낫다

Molmo + PixMo(Deitke et al., 2024)는 모두가 읽어야 할 2024년 결과입니다. Allen AI는 사람 주석자(annotator)에게 이미지를 1-3분 동안 말로 자세히 설명하게 하고, 음성을 텍스트로 변환(transcribe)해 밀집 캡션(dense caption)을 만들었습니다. 그렇게 71만 2천 개의 빽빽하게 캡션된(densely-captioned) 이미지를 얻었고, 학습 데이터에는 GPT-4V 증류가 전혀 포함되지 않았습니다.

Molmo-72B는 11개 벤치마크 가운데 11개 모두에서 Llama-3.2-90B-Vision을 이겼습니다. 차이는 아키텍처가 아니라 캡션 품질에서 나왔습니다. 자세한 사람 캡션은 짧은 웹 캡션보다 이미지당 5-10배 많은 정보를 담고, GPT-4V 증류가 환각(hallucinate)을 일으키는 지점에서도 사실에 더 잘 근거(ground)합니다.

ShareGPT4V(Chen et al., 2023)와 Cauldron(Idefics2)도 사람 캡션과 GPT-4V 캡션을 섞는 같은 전략(playbook)을 따랐습니다. 흐름은 분명합니다. 2026년 최전선에서는 캡션 밀도(caption density)가 캡션 수량(caption quantity)보다 중요하고, 캡션 수량은 증류의 편의성보다 중요합니다.

5번 축: 해상도와 스케줄

Idefics2의 절제 실험에 따르면 384에서 448로 올리면 1-2점이 오릅니다. 448에서 이미지 분할(image splitting; AnyRes)을 사용해 980까지 올리면 OCR 벤치마크에서 3-5점이 더 오릅니다. 고정 해상도(flat resolution) 학습은 중간 정도 정확도에서 정체(plateau)에 도달합니다. 224에서 시작해 448 또는 네이티브로 끝나는 해상도 점증(resolution ramping) 방식은 정렬(alignment) 학습이 더 빠르고 최종 성능도 더 높습니다.

Cambrian-1은 해상도와 토큰의 교환 관계(trade-off)도 실험했습니다. 연산이 고정되어 있을 때, 낮은 해상도에서 토큰을 더 많이 쓸 수도 있고, 높은 해상도에서 토큰을 더 적게 쓸 수도 있습니다. OCR에서는 더 높은 해상도가 이기고, 일반적인 장면 이해(scene understanding)에서는 더 많은 토큰을 가진 더 낮은 해상도가 이깁니다.

2026년 양산 레시피는, Stage 1을 고정 384에서 정렬 학습으로 진행하고, Stage 2를 OCR 중심 과제를 위해 1280까지 동적 해상도(dynamic resolution)로 학습하는 것입니다.

Prismatic의 통제 비교

Prismatic VLMs(Karamcheti et al., 2024)는 모든 축을 통제한 논문입니다. 같은 13B LLM, 같은 지시 데이터, 같은 평가를 사용하고, 한 번에 하나의 축만 바꿉니다. 결과는 다음과 같습니다.

이미지당 시각 토큰 수가 분산의 약 60%를 설명합니다.
인코더 선택이 약 20%를 설명합니다.
커넥터 아키텍처가 약 5%를 설명합니다.
그 밖의 데이터 혼합, 스케줄러, 학습률(learning rate)이 나머지 약 15%를 설명합니다.

이는 대략적인 분해(decomposition)에 불과하지만, "무엇을 먼저 절제 실험해야 하는가"라는 질문에 대해 문헌이 내놓은 가장 깔끔한 답입니다.

2026년을 위한 선택기

증거를 종합하면, 2026년에 새로 시작하는 프로젝트의 기본 오픈 VLM 레시피는 다음과 같습니다.

인코더: 네이티브 해상도의 SigLIP 2 SO400m/14에 NaFlex를 함께 사용합니다. 분할이나 그라운딩이 필요하면 DINOv2 ViT-g/14를 연결합니다.
커넥터: 패치 토큰 위의 2-레이어 MLP입니다. 토큰 수가 제약이 아닌 한 Q-Former는 건너뜁니다.
LLM: Qwen2.5 / Llama-3.1 / Gemma 2 계열입니다. 비용이 중요하면 7B, 품질이 중요하면 70B를 고르며, 목표 지연 시간(target latency)을 기준으로 선택합니다.
데이터: PixMo + ShareGPT4V + Cauldron을 기본으로 두고, 과제별 지시 데이터로 보강합니다.
해상도: 동적 해상도를 사용합니다. 긴 변(long side) 기준으로 최소 256, 최대 1280 픽셀을 사용합니다.
스케줄: Stage 1은 정렬 학습(projector-only), Stage 2는 전체 미세 조정(full fine-tune), Stage 3는 과제별 미세 조정입니다.

이 기본값들은 모두 강의 끝에 나열한 논문의 실제 측정된 절제 실험으로 거슬러 올라갑니다.

사용해보기

code/main.py는 절제 실험표 파서이자 레시피 선택기입니다. MM1과 Idefics2의 절제 실험표를 압축된 형태로 인코딩해 두고, 다음과 같은 질문을 던질 수 있게 합니다.

"예산 X와 과제 Y가 주어졌을 때 어떤 레시피가 이기는가?"
"7B Llama에서 SigLIP을 CLIP으로 바꾸면 예상되는 MMMU 변화량(delta)은 얼마인가?"
"80% 신뢰도로 답을 얻으려면 어떤 축을 먼저 절제 실험해야 하는가?"

출력은 예상 벤치마크 변화량이 포함된 정렬된 레시피 목록과 "먼저 절제할 축(ablate first)" 추천입니다.

산출물 만들기

이 강의는 outputs/skill-vlm-recipe-picker.md를 만듭니다. 목표 과제 구성, 연산 예산, 지연 시간 목표가 주어지면 인코더, 커넥터, LLM, 데이터 혼합, 해상도 스케줄을 모두 포함한 전체 레시피를 출력하고, 각 선택을 정당화하는 절제 실험 인용을 붙입니다. 새로운 VLM 프로젝트를 시작할 때마다 Idefics2의 절제 실험표를 처음부터 다시 발명하는 일을 막아줍니다.

연습문제

쉬움: MM1 Section 3.2를 읽습니다. 2B LLM과 5천만 장 이미지 예산이 고정되어 있을 때 어떤 인코더가 이깁니까? LLM이 13B가 되면 답이 바뀔까요? 왜 그렇습니까?
중간: Cambrian-1은 DINOv2와 SigLIP을 연결하면 시각 중심 벤치마크에서는 둘 중 하나만 쓸 때보다 성능이 좋아지지만, MMMU에서는 추가 신호가 거의 없다고 보고합니다. 어떤 벤치마크가 이득을 얻고, 어떤 벤치마크는 그대로 유지될지 예측합니다.
중간: 목표가 2B LLM 위의 모바일 UI 에이전트입니다. 인코더, 커넥터, 해상도, 데이터 혼합을 고릅니다. 각 선택을 특정 절제 실험표로 정당화합니다.
어려움: Molmo는 4B와 72B 모델을 함께 제공합니다. 4B는 닫힌(closed) 7B VLM과 경쟁할 수 있는 수준이고, 72B는 11개 벤치마크 모두에서 Llama-3.2-90B-Vision을 이깁니다. 이 결과는 "LLM 크기 정체 가설(LLM-size plateau hypothesis)"에 대해 무엇을 말해줍니까?
어려움: 7B VLM에서 데이터 혼합 품질과 인코더 품질을 분리하기 위한 절제 실험표를 설계합니다. 최소 몇 번의 학습 실행(training run)이 필요합니까? 네 가지 축 설정을 제안합니다.

핵심 용어

용어	흔한 설명	실제 의미
절제 실험(Ablation)	"손잡이 하나 돌리기"	다른 조건을 모두 고정하고 설계 공간의 축 하나만 다르게 둔 여러 학습 실행을 비교하는 실험이다.
커넥터(Connector)	"다리(bridge)" 또는 "프로젝터(projector)"	시각 인코더의 출력을 LLM의 토큰 공간으로 사상하는 학습 가능 모듈이다. MLP, Q-Former, Perceiver 등이 있다.
자세한 사람 캡션(Detailed human caption)	"밀집 캡션(dense caption)"	웹의 대체 텍스트(alt text)보다 풍부한, 사람이 쓴 여러 문장짜리 설명이다. 보통 80-300 토큰 정도이다.
증류(Distillation)	"GPT-4V 캡션"	더 강한 비공개(proprietary) VLM이 생성한 학습 데이터이다. 편리하지만 환각이 그대로 이어지기 쉽다.
AnyRes / 동적 해상도(dynamic res)	"고해상도 경로(high-res path)"	타일링(tiling)이나 M-RoPE로 인코더의 네이티브 해상도보다 큰 이미지를 입력하는 전략이다.
해상도 점증(Resolution ramp)	"커리큘럼(curriculum)"	낮은 해상도에서 시작해 점차 올리는 학습 스케줄이다. 정렬 학습을 빠르게 한다.
시각 중심 벤치마크(Vision-centric bench)	"CV-Bench / BLINK"	언어 중심 추론보다 세밀한 시각 지각을 강조하는 평가이다.
PixMo	"Molmo의 데이터"	Allen AI가 만든 71만 2천 개의 밀집 캡션 이미지 데이터셋이다. 사람의 음성을 밀집 캡션으로 텍스트 변환한 결과이다.

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main

Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

vlm-recipe-picker

Pick an open-weight VLM recipe (encoder, connector, LLM, data mix, resolution schedule) with ablation-table citations for every choice.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.프로덕션에서 VLM 레시피 절제 실험의 가장 중요한 설계 원칙은?

2.VLM 레시피 절제 실험가 올바른 선택이 아닌 경우는?

3.VLM 레시피 절제 실험는 AI 생태계에 어떻게 들어맞나요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다

이전 강의

임의 해상도 비전 — Patch-n'-Pack과 NaFlex

다음 강의

LLaVA-OneVision — 단일 이미지, 멀티 이미지, 비디오