오디오-언어 모델(Audio-Language Models) — Qwen2.5-Omni, Audio Flamingo, GPT-4o Audio

2026년의 오디오-언어 모델(audio-language model)은 음성(speech), 환경음(environmental sound), 음악(music)을 함께 다루며 추론(reasoning)합니다. Qwen2.5-Omni-7B는 MMAU-Pro에서 GPT-4o Audio에 근접하는 성능을 보이고, Audio Flamingo Next는 LongAudioBench에서 Gemini 2.5 Pro를 앞섭니다. 오픈(open)과 클로즈드(closed) 모델 간 격차는 사실상 좁혀졌습니다. 다만 다중 오디오(multi-audio) 과제에서는 모든 모델이 거의 무작위(random) 수준에 머무릅니다.

유형: Learn 언어: Python 선수 강의: Phase 6 · 04 (ASR), Phase 12 · 03 (Vision-Language Models), Phase 7 · 10 (Audio Transformers) 예상 시간: 약 45분

학습 목표

  • 오디오-언어 모델(LALM/ALM)이 순수 음성 인식(pure ASR)과 어떻게 다른지 설명합니다.
  • 오디오 인코더(audio encoder), 프로젝터(projector), LLM 디코더(LLM decoder)라는 3-구성요소 템플릿(3-component template)을 이해합니다.
  • MMAU-Pro와 LongAudioBench가 각각 무엇을 측정하는지 구분합니다.
  • LALM이 적합한 과제(task)와 특화 모델(specialized model)로 폴백(fallback)해야 하는 과제를 구분합니다.

문제

5초 길이의 오디오가 있다고 가정해 봅니다. 개가 짖고, 누군가 "stop!"이라고 외친 뒤, 침묵이 이어집니다. 이때 던질 수 있는 유용한 질문은 여러 축을 가집니다.

  • 전사(Transcription). "무엇을 말했습니까?" — 음성 인식(ASR)의 영역입니다.
  • 의미 추론(Semantic reasoning). "그 사람이 위험한 상황입니까?" — 짖음, 외침, 침묵을 함께 이해해야 합니다.
  • 음악 추론(Music reasoning). "어떤 악기(instrument)가 멜로디(melody)를 연주합니까?"
  • 장시간 오디오 검색(Long-audio retrieval). "90분짜리 강의(lecture)에서 강사가 경사 하강법(gradient descent)을 설명한 위치는 어디입니까?"

이 모든 질문에 하나의 프롬프트로 답하는 단일 모델이 바로 오디오-언어 모델(audio-language model; LALM / ALM) 입니다. 순수 ASR과는 다릅니다. LALM은 전사문(transcript)만 내는 것이 아니라 자유 형식의 자연어 답변(free-form natural-language answers)을 생성합니다.

사전 테스트

2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요

1.오디오-언어 모델(LALM)은 순수 음성 인식(ASR) 시스템과 어떻게 다른가요?

2.2026년의 모든 오디오-언어 모델은 공통된 세 구성요소 아키텍처를 공유합니다. 이 세 구성요소는 무엇인가요?

0/2 답변 완료

개념

audio-language model — three-component template (2026) 1. audio encoder Whisper / BEATs / CLAP → (T, d_audio) frozen in stage 1 2. projector 1-3 linear layers d_audio → d_llm trained first 3. LLM decoder Llama / Qwen / Gemma text + audio tokens LoRA-fine-tuned stage 2 4. text OR speech Qwen2.5-Omni: both GPT-4o Audio: both speech decoder optional training recipe stage 1 · freeze encoder + LLM; train projector on ASR / captioning pairs stage 2 · LoRA on encoder + LLM; audio-QA / instruction-following data stage 3 · (optional) bolt on a speech decoder for voice-in / voice-out MMAU-Pro 2026 — open weights have closed the gap, except on multi-audio Gemini 2.5 Pro ~60% overall 73.4% speech 51.9% sound 64.9% music ~22% multi GPT-4o Audio 52.5% — — — 26.5% multi Qwen2.5-Omni-7B 52.2% 57.4% speech 47.6% sound 61.5% music ~20% multi Audio Flamingo 3 ~54% — (music specialist via AF-CLAP) random chance on 4-way multiple choice = 25% — multi-audio is genuinely broken across all models

세 구성요소 템플릿(three-component template)

2026년의 모든 LALM은 같은 골격(skeleton)을 가집니다.

  1. 오디오 인코더(Audio encoder). Whisper 인코더, BEATs, CLAP, WavLM 또는 모델별 자체 인코더(custom encoder)를 사용합니다.
  2. 프로젝터(Projector). 오디오 인코더의 특징(feature)을 LLM의 토큰 임베딩 공간(token embedding space)으로 연결하는 선형 계층(linear) 또는 MLP입니다.
  3. LLM. Llama, Qwen, Gemma 기반 디코더입니다. 텍스트와 오디오 토큰이 교차된(interleaved) 시퀀스를 받아 텍스트를 생성합니다.

학습(training)은 보통 다음 순서로 진행됩니다.

  • Stage 1. 인코더와 LLM은 동결(freeze)하고, ASR/캡셔닝(captioning) 데이터로 프로젝터만 학습합니다.
  • Stage 2. 질의응답(QA), 추론(reasoning), 음악 이해(music understanding) 같은 지시 따르기(instruction-following) 오디오 과제에 대해 전체 미세조정(full fine-tune) 또는 LoRA 미세조정(LoRA fine-tune)을 수행합니다.
  • Stage 3(선택). 음성 입출력(voice-in / voice-out)을 위해 음성 디코더(speech decoder)를 추가합니다. Qwen2.5-Omni와 AF3-Chat이 이 방식을 사용합니다.

2026년 모델 지도(model map)

모델BackboneAudio encoderOutput modalityAccess
Qwen2.5-Omni-7BQwen2.5-7BCustom + Whispertext + speechApache-2.0
Qwen3-OmniQwen3Customtext + speechApache-2.0
Audio Flamingo 3Qwen2AF-CLAPtextNVIDIA non-commercial
Audio Flamingo NextQwen2AF-CLAP v2textNVIDIA non-commercial
SALMONNVicunaWhisper + BEATstextApache-2.0
LTU / LTU-ASLlamaCAV-MAEtextApache-2.0
GAMALlamaAST + Q-FormertextApache-2.0
Gemini 2.5 Flash/Pro(closed)Geminiproprietarytext + speechAPI
GPT-4o Audio(closed)GPT-4oproprietarytext + speechAPI

벤치마크 현실 점검(Benchmark reality check, 2026)

MMAU-Pro 는 음성/소리/음악/혼합(speech / sound / music / mixed)을 다루는 1800개 질의응답(QA) 쌍으로 구성됩니다. 다중 오디오(multi-audio) 부분집합(subset)이 포함되어 있습니다.

모델OverallSpeechSoundMusicMulti-audio
Gemini 2.5 Pro~60%73.4%51.9%64.9%~22%
Gemini 2.5 Flash~57%73.4%50.5%64.9%21.2%
GPT-4o Audio52.5%---26.5%
Qwen2.5-Omni-7B52.2%57.4%47.6%61.5%~20%
Audio Flamingo 3~54%----
Audio Flamingo NextLongAudioBench SOTA----

다중 오디오 열(multi-audio column)은 모든 모델에 가혹합니다. 4지 선다 객관식(multiple choice)의 무작위 확률(random chance)은 25%인데, 대부분 모델이 그 근처에 머무릅니다. LALM은 여전히 두 클립(clip)을 비교하는 일에 약합니다.

2026년에 LALM이 유용한 곳

  • 콜센터 녹취 컴플라이언스 감사(call-center recording compliance audit). "상담원(agent)이 필수 고지(disclosure)를 말했는가?"
  • 접근성(accessibility). 청각 장애 사용자(deaf user)에게 단순 전사가 아니라 소리 이벤트(sound event)를 함께 설명합니다.
  • 콘텐츠 모더레이션(content moderation). 폭력적 언어, 위협적 어조(threatening tone), 배경 맥락(background context)을 함께 감지합니다.
  • 팟캐스트/회의 챕터링(podcast / meeting chaptering). 화자 전환(speaker turn)뿐 아니라 의미 기반 요약(semantic summary)을 만듭니다.
  • 음악 카탈로그 분석(music catalog analysis). "B-섹션에서 조성 변화(B-section key change)가 있는 트랙을 모두 찾기" 같은 질문입니다.

아직 유용하지 않은 곳

  • 세밀한 음악 이론(music theory) (코드 수준 이하)
  • 긴 대화에서의 화자별 추론(speaker-attributed reasoning) (10분을 넘어가면 성능 저하)
  • 다중 오디오 비교(multi-audio comparison) (22-26%는 무작위보다 조금 나은 수준)
  • 실시간 스트리밍 추론(real-time streaming reasoning) (대부분이 오프라인 배치 추론(offline batch inference))

직접 만들기

Step 1: Qwen2.5-Omni에 질의하기

from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto")

audio, sr = load_wav("clip.wav", sr=16000)
messages = [{
    "role": "user",
    "content": [
        {"type": "audio", "audio": audio},
        {"type": "text", "text": "What sounds do you hear, and what's happening?"},
    ],
}]
inputs = processor.apply_chat_template(messages, tokenize=True, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(output[0], skip_special_tokens=True))

Step 2: 프로젝터 패턴(projector pattern)

import torch.nn as nn

class AudioProjector(nn.Module):
    def __init__(self, audio_dim=1280, llm_dim=4096):
        super().__init__()
        self.down = nn.Linear(audio_dim, llm_dim)
        self.act = nn.GELU()
        self.up = nn.Linear(llm_dim, llm_dim)

    def forward(self, audio_features):
        return self.up(self.act(self.down(audio_features)))

이게 전부입니다. 프로젝터는 보통 1-3개의 선형 계층(linear layer)으로 구성됩니다. ASR 쌍(audio → transcript)으로 이 프로젝터를 학습시키는 것이 Stage-1 사전 과제(pretext task)입니다.

Step 3: MMAU / LongAudioBench 벤치마킹

from datasets import load_dataset
mmau = load_dataset("MMAU/MMAU-Pro")

correct = 0
for item in mmau["test"]:
    answer = call_model(item["audio"], item["question"], item["choices"])
    if answer == item["correct_choice"]:
        correct += 1
print(f"Accuracy: {correct / len(mmau['test']):.3f}")

음성/소리/음악/다중 오디오 범주(category)별로 따로 보고합니다. 집계 수치(aggregate number)는 모델이 어디에서 실패하는지를 숨기기 때문입니다.

사용하기

과제(Task)2026년 추천(pick)
자유 형식 오디오 QA (오픈 모델)Qwen2.5-Omni-7B
장시간 오디오에서 가장 강한 오픈 모델Audio Flamingo Next
가장 강한 클로즈드 모델Gemini 2.5 Pro
음성 입출력(voice-in / voice-out) 에이전트Qwen2.5-Omni 또는 GPT-4o Audio
음악 추론(music reasoning)Audio Flamingo 3 또는 2 (음악 특화 AF-CLAP)
콜센터 감사(call-center audit)정책 문서(policy docs)에 대한 RAG와 결합한 Gemini 2.5 Pro API

흔한 함정

  • 다중 오디오 과신(over-trust on multi-audio). 과제가 "어느 클립이 X인가?"를 요구하면 무작위에 가까운 성능이 실제로 나타납니다.
  • 장시간 오디오 성능 저하(long-audio degradation). 10분을 넘기면 대부분 모델의 화자 귀속(speaker attribution)이 깨집니다. 먼저 화자 분리(diarize)를 수행하고(Lesson 6), 그다음에 요약(summarize)합니다.
  • 침묵에서의 환각(silence hallucination). Whisper 인코더를 사용하는 LALM은 Whisper 계열 이슈를 물려받아 침묵 구간에서 환각(hallucination)을 일으킬 수 있습니다. 음성 활동 감지(VAD)로 게이팅(gating)합니다.
  • 벤치마크 체리 피킹(benchmark cherry-picking). 벤더의 블로그 글은 최상위 범주(best-case category)를 강조합니다. MMAU-Pro 다중 오디오 부분집합을 직접 실행해 확인합니다.

산출물 만들기

outputs/skill-alm-picker.md로 저장합니다. 오디오 이해(audio-understanding) 과제에 맞는 LALM, 벤치마크 부분집합, 출력 모달리티(text vs speech)를 골라 주는 스킬(skill)입니다.

연습문제

  1. 쉬움. code/main.py를 실행합니다. 장난감 수준의 프로젝터 패턴(toy projector pattern)과 (audio-embedding, text-tokens) -> output tokens 형태의 모의 LALM 라우팅(fake LALM routing)을 확인합니다.
  2. 중간. MMAU-Pro 음성(speech) 항목 100개에 대해 Qwen2.5-Omni-7B를 채점(scoring)합니다. 논문에서 보고한 수치(reported number)와 비교합니다.
  3. 어려움. 최소 오디오 캡셔닝 베이스라인(minimal audio-captioning baseline)을 만듭니다. BEATs 인코더 + 2층 프로젝터 + 동결된 Llama-3.2-1B를 사용하고, AudioCaps에서 프로젝터만 미세조정(fine-tune)합니다. SALMONN의 Clotho-AQA 결과와 비교합니다.

핵심 용어

용어흔한 설명실제 의미
LALM오디오 ChatGPT오디오 인코더 + 프로젝터 + LLM 디코더로 구성된 모델입니다.
프로젝터(Projector)어댑터(adapter)오디오 특징을 LLM 임베딩 공간으로 매핑(mapping)하는 작은 MLP입니다.
MMAU그 벤치마크음성, 소리, 음악 전반의 10k개 오디오-QA 쌍입니다.
MMAU-Pro더 어려운 MMAU1800개의 다중 오디오/추론 중심(multi-audio / reasoning-heavy) 문항입니다.
LongAudioBench장시간 평가(long-form eval)수 분 단위 클립과 의미 기반 질의(semantic query)를 평가합니다.
음성 입출력(Voice-in / voice-out)음성 네이티브(speech-native)텍스트 우회 없이 음성을 입력받고 음성을 출력합니다.

더 읽을거리

실습 코드

이 강의의 실습 코드 1개

main
Code

산출물

이 강의에서 생성된 프롬프트, 스킬, 코드 산출물 1개

alm-picker

Pick an audio-language model, benchmark subset, output modality (text vs speech), and guardrails for an audio-understanding task.

Skill

확인 문제

3문제 · 모두 맞추면 완료 표시가 가능합니다

1.오디오 QA 시스템을 구축했는데, 단일 클립 질문에는 잘 수행하지만 두 개의 오디오 클립을 비교해야 하는 과제에서는 무작위 확률(약 25%) 수준의 점수를 받습니다. 이것이 현재 LALM의 한계에 대해 무엇을 보여주나요?

2.LALM 학습에서 Stage 1은 오디오 인코더와 LLM을 모두 동결(freeze)하고 ASR/캡셔닝(captioning) 데이터로 프로젝터만 학습시킵니다. 처음부터 모든 것을 종단간(end-to-end)으로 학습하지 않고 이런 단계적 접근을 사용하는 이유는 무엇인가요?

3.LALM이 Whisper 인코더를 사용하는데, 오디오 입력의 무음(silence) 구간에서 'Thanks for watching' 같은 환각된 텍스트(hallucinated text)를 생성합니다. 올바른 완화 방법은 무엇인가요?

0/3 답변 완료

추가 문제 풀기

AI가 강의 내용을 바탕으로 새로운 문제를 생성합니다