2026년의 오디오-언어 모델(audio-language model)은 음성(speech), 환경음(environmental sound), 음악(music)을 함께 다루며 추론(reasoning)합니다. Qwen2.5-Omni-7B는 MMAU-Pro에서 GPT-4o Audio에 근접하는 성능을 보이고, Audio Flamingo Next는 LongAudioBench에서 Gemini 2.5 Pro를 앞섭니다. 오픈(open)과 클로즈드(closed) 모델 간 격차는 사실상 좁혀졌습니다. 다만 다중 오디오(multi-audio) 과제에서는 모든 모델이 거의 무작위(random) 수준에 머무릅니다.
유형: Learn
언어: Python
선수 강의: Phase 6 · 04 (ASR), Phase 12 · 03 (Vision-Language Models), Phase 7 · 10 (Audio Transformers)
예상 시간: 약 45분
학습 목표
오디오-언어 모델(LALM/ALM)이 순수 음성 인식(pure ASR)과 어떻게 다른지 설명합니다.
LALM이 적합한 과제(task)와 특화 모델(specialized model)로 폴백(fallback)해야 하는 과제를 구분합니다.
문제
5초 길이의 오디오가 있다고 가정해 봅니다. 개가 짖고, 누군가 "stop!"이라고 외친 뒤, 침묵이 이어집니다. 이때 던질 수 있는 유용한 질문은 여러 축을 가집니다.
전사(Transcription). "무엇을 말했습니까?" — 음성 인식(ASR)의 영역입니다.
의미 추론(Semantic reasoning). "그 사람이 위험한 상황입니까?" — 짖음, 외침, 침묵을 함께 이해해야 합니다.
음악 추론(Music reasoning). "어떤 악기(instrument)가 멜로디(melody)를 연주합니까?"
장시간 오디오 검색(Long-audio retrieval). "90분짜리 강의(lecture)에서 강사가 경사 하강법(gradient descent)을 설명한 위치는 어디입니까?"
이 모든 질문에 하나의 프롬프트로 답하는 단일 모델이 바로 오디오-언어 모델(audio-language model; LALM / ALM) 입니다. 순수 ASR과는 다릅니다. LALM은 전사문(transcript)만 내는 것이 아니라 자유 형식의 자연어 답변(free-form natural-language answers)을 생성합니다.
사전 테스트
2문제 · 이 강의를 시작하기 전에 얼마나 알고 있는지 확인해보세요
1.오디오-언어 모델(LALM)은 순수 음성 인식(ASR) 시스템과 어떻게 다른가요?
2.2026년의 모든 오디오-언어 모델은 공통된 세 구성요소 아키텍처를 공유합니다. 이 세 구성요소는 무엇인가요?
0/2 답변 완료
개념
세 구성요소 템플릿(three-component template)
2026년의 모든 LALM은 같은 골격(skeleton)을 가집니다.
오디오 인코더(Audio encoder). Whisper 인코더, BEATs, CLAP, WavLM 또는 모델별 자체 인코더(custom encoder)를 사용합니다.
프로젝터(Projector). 오디오 인코더의 특징(feature)을 LLM의 토큰 임베딩 공간(token embedding space)으로 연결하는 선형 계층(linear) 또는 MLP입니다.
LLM. Llama, Qwen, Gemma 기반 디코더입니다. 텍스트와 오디오 토큰이 교차된(interleaved) 시퀀스를 받아 텍스트를 생성합니다.
Stage 2. 질의응답(QA), 추론(reasoning), 음악 이해(music understanding) 같은 지시 따르기(instruction-following) 오디오 과제에 대해 전체 미세조정(full fine-tune) 또는 LoRA 미세조정(LoRA fine-tune)을 수행합니다.
Stage 3(선택). 음성 입출력(voice-in / voice-out)을 위해 음성 디코더(speech decoder)를 추가합니다. Qwen2.5-Omni와 AF3-Chat이 이 방식을 사용합니다.
2026년 모델 지도(model map)
모델
Backbone
Audio encoder
Output modality
Access
Qwen2.5-Omni-7B
Qwen2.5-7B
Custom + Whisper
text + speech
Apache-2.0
Qwen3-Omni
Qwen3
Custom
text + speech
Apache-2.0
Audio Flamingo 3
Qwen2
AF-CLAP
text
NVIDIA non-commercial
Audio Flamingo Next
Qwen2
AF-CLAP v2
text
NVIDIA non-commercial
SALMONN
Vicuna
Whisper + BEATs
text
Apache-2.0
LTU / LTU-AS
Llama
CAV-MAE
text
Apache-2.0
GAMA
Llama
AST + Q-Former
text
Apache-2.0
Gemini 2.5 Flash/Pro(closed)
Gemini
proprietary
text + speech
API
GPT-4o Audio(closed)
GPT-4o
proprietary
text + speech
API
벤치마크 현실 점검(Benchmark reality check, 2026)
MMAU-Pro 는 음성/소리/음악/혼합(speech / sound / music / mixed)을 다루는 1800개 질의응답(QA) 쌍으로 구성됩니다. 다중 오디오(multi-audio) 부분집합(subset)이 포함되어 있습니다.
모델
Overall
Speech
Sound
Music
Multi-audio
Gemini 2.5 Pro
~60%
73.4%
51.9%
64.9%
~22%
Gemini 2.5 Flash
~57%
73.4%
50.5%
64.9%
21.2%
GPT-4o Audio
52.5%
-
-
-
26.5%
Qwen2.5-Omni-7B
52.2%
57.4%
47.6%
61.5%
~20%
Audio Flamingo 3
~54%
-
-
-
-
Audio Flamingo Next
LongAudioBench SOTA
-
-
-
-
다중 오디오 열(multi-audio column)은 모든 모델에 가혹합니다. 4지 선다 객관식(multiple choice)의 무작위 확률(random chance)은 25%인데, 대부분 모델이 그 근처에 머무릅니다. LALM은 여전히 두 클립(clip)을 비교하는 일에 약합니다.
Pick an audio-language model, benchmark subset, output modality (text vs speech), and guardrails for an audio-understanding task.
Skill
확인 문제
3문제 · 모두 맞추면 완료 표시가 가능합니다
1.오디오 QA 시스템을 구축했는데, 단일 클립 질문에는 잘 수행하지만 두 개의 오디오 클립을 비교해야 하는 과제에서는 무작위 확률(약 25%) 수준의 점수를 받습니다. 이것이 현재 LALM의 한계에 대해 무엇을 보여주나요?
2.LALM 학습에서 Stage 1은 오디오 인코더와 LLM을 모두 동결(freeze)하고 ASR/캡셔닝(captioning) 데이터로 프로젝터만 학습시킵니다. 처음부터 모든 것을 종단간(end-to-end)으로 학습하지 않고 이런 단계적 접근을 사용하는 이유는 무엇인가요?
3.LALM이 Whisper 인코더를 사용하는데, 오디오 입력의 무음(silence) 구간에서 'Thanks for watching' 같은 환각된 텍스트(hallucinated text)를 생성합니다. 올바른 완화 방법은 무엇인가요?