✅

250206_1156_논문 리뷰: VideoLLaMA 3 – Frontier Multimodal Foundation Models for Image and Video Understanding

논문 리뷰: VideoLLaMA 3 – Frontier Multimodal Foundation Models for Image and Video Understanding

1. 개요 (Abstract)

•

VideoLLaMA 3는 이미지 및 비디오 이해를 위한 최첨단 멀티모달 기초 모델

•

"Vision-centric" 철학을 기반으로 설계됨

◦

Vision-centric Training Paradigm: 고품질 이미지-텍스트 데이터 활용

◦

Vision-centric Framework Design: 동적 해상도 이미지 처리 및 효율적인 비디오 표현 학습

•

4단계 훈련 방식:

Vision Encoder Adaptation: 다양한 해상도의 이미지를 인식할 수 있도록 인코더 조정

Vision-Language Alignment: 이미지-텍스트 데이터로 멀티모달 정렬

Multi-task Fine-tuning: 다양한 태스크별 최적화 및 비디오 이해 능력 강화

Video-centric Fine-tuning: 비디오 중심 미세 조정으로 비디오 이해 성능 향상

•

혁신적인 프레임워크 설계:

◦

Any-resolution Vision Tokenization (AVT): 이미지의 해상도에 맞춰 적절한 토큰 수 조정

◦

Differential Frame Pruner (DiffFP): 비디오 프레임 간 중복 정보를 줄여 효율성 증대

•

최신 벤치마크에서 뛰어난 성능을 보이며, 이미지 및 비디오 이해에서 SOTA 달성

2. 배경 및 문제 정의 (Introduction)

•

대형 언어 모델(LLMs)의 발전으로 자연어 이해 능력이 크게 향상되었지만, 인간 수준의 인공지능을 위해서는 시각적 이해가 필수적

•

기존 Multimodal Large Language Models (MLLMs) 은 정적인 이미지 기반 모델과 동적인 비디오 기반 모델로 구분됨

◦

이미지 중심 MLLMs는 고품질 이미지-텍스트 데이터 활용 → OCR, 문서 이해, 시각적 질문 응답(VQA) 등에서 강력한 성능

◦

비디오 중심 MLLMs는 시간적 요소를 고려해야 하며, 낮은 품질의 비디오-텍스트 데이터 문제로 인해 한계 존재

•

VideoLLaMA 3는 이미지 이해를 기반으로 비디오 이해를 강화하는 방식으로 접근

3. 방법론 (Methodology)

3.1. Vision-centric Training Paradigm

•

이미지 이해 능력을 비디오 이해로 확장하는 4단계 학습 과정

Vision Encoder Adaptation

•

다양한 해상도의 이미지 입력을 수용할 수 있도록 비전 인코더 조정

•

기존 모델의 고정된 해상도 문제 해결

Vision-Language Alignment

•

이미지-텍스트 데이터와 박스 주석 데이터를 활용하여 공간적 추론 능력 향상

•

텍스트만 포함된 데이터도 일부 활용하여 언어 능력 유지

Multi-task Fine-tuning

•

다양한 태스크 수행을 위해 이미지-텍스트 학습 데이터 적용

•

비디오 데이터와 결합하여 비디오 이해 능력의 기초 구축

Video-centric Fine-tuning

•

비디오 전용 데이터로 비디오 이해 및 비디오 질문 응답(QA) 성능 최적화

3.2. Vision-centric Framework Design

•

Any-resolution Vision Tokenization (AVT)

◦

기존 고정 해상도 입력 처리 방식(ViT 기반)의 문제 해결

◦

2D-RoPE(Position Embedding) 적용하여 가변 해상도 이미지 처리 가능

◦

장점:

▪

다양한 해상도의 이미지에 대한 정보 손실 최소화

▪

더욱 정밀한 시각적 표현 가능

•

Differential Frame Pruner (DiffFP)

◦

비디오 프레임 간 중복 정보 최소화

◦

연속된 프레임의 1-norm 거리 계산 → 변화가 적은 프레임 제거

◦

주요 장점:

▪

비디오 토큰 수 절감 → 연산량 감소

▪

중요 장면 강조 → 효율적 비디오 표현 가능

3.3. Data Construction & Cleaning

•

VL3-Syn7M: 고품질 이미지-텍스트 데이터셋 구축

◦

기존 COYO-700M 데이터 기반

◦

다단계 필터링 적용하여 데이터 품질 향상:

비정상적인 비율(A.R.) 이미지 제거

미적 품질(Aesthetic Score) 평가 후 저품질 이미지 필터링

BLIP2 모델을 활용한 텍스트-이미지 유사도 평가 후 저품질 데이터 제외

KNN을 활용한 이미지 특징 클러스터링

InternVL2-8B / InternVL2-26B를 사용한 세밀한 이미지 캡션 생성

◦

총 700만 개의 고품질 이미지-텍스트 쌍 구축

4. 실험 결과 (Experiments & Results)

4.1. 이미지 기반 성능 평가

•

문서/차트/장면 텍스트 이해

◦

DocVQA, ChartQA, InfoVQA, OCRBench에서 최첨단 성능 기록

•

수학적 추론

◦

MathVista, MathVision에서 기존 모델 대비 최대 7.9% 향상

•

멀티 이미지 이해

◦

MMMU-Pro, MMMUval, BLINKtest에서 높은 성능 달성

•

일반 상식 QA

◦

RealWorldQA, AI2D, GQA에서 최상위 성능 기록

4.2. 비디오 기반 성능 평가

•

일반 비디오 이해 (General Video Understanding)

◦

VideoMME, PerceptionTest, ActivityNet-QA 등에서 최상위 성능

•

장기간 비디오 이해 (Long Video Understanding)

◦

MLVU, LongVideoBench, LVBench에서 최고 성능 기록

•

시간적 추론 (Temporal Reasoning)

◦

TempCompass, NextQA, Charades-STA에서 강력한 성능 입증

5. 주요 기여 및 결론 (Contributions & Conclusion)

5.1. 주요 기여

•

최신 멀티모달 기초 모델 VideoLLaMA 3 제안

◦

이미지 및 비디오 이해에서 최첨단 성능 달성

•

비디오 이해 능력을 향상시키기 위한 Vision-centric Training Paradigm 제안

•

비전 인코더 개선을 위한 혁신적 설계 도입

◦

Any-resolution Vision Tokenization (AVT)

◦

Differential Frame Pruner (DiffFP)

•

7M 개 이상의 고품질 이미지-텍스트 데이터 구축

◦

데이터 필터링 및 재캡션 기법 적용하여 학습 성능 극대화

5.2. 결론

•

이미지 중심 접근 방식을 통해 비디오 이해를 강화하는 전략이 효과적임을 입증

•

컴팩트한 비디오 표현 및 효율적 토큰 활용으로 연산량을 줄이면서도 성능 유지

•

다양한 벤치마크에서 SOTA 성능을 달성하며 멀티모달 AI 연구의 새로운 표준을 제시

6. 한계 및 향후 연구 방향 (Limitations & Future Work)

•

비디오 텍스트 데이터의 품질 향상이 필요

•

더욱 다양한 장면 및 시나리오에서의 성능 평가 필요

안녕하세요

•

관련 기술 문의와 R&D 공동 연구 사업 관련 문의는 “glory@keti.re.kr”로 연락 부탁드립니다.

Hello

•

For technical and business inquiries, please contact me at “glory@keti.re.kr”

GloryKim - Overview

Kubeflow, Tensorflow, Front-End, IoTivity, Go, Microservice Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Mon Wed Fri Created 14 commits in 4 repositories Opened their first pull request on GitHub in a private repository First pull request Opened 1 other pull request in 1 repository Reviewed 1 pull request in 1 repository GloryKim/Go 1 pull request Opened their first issue on GitHub in a private repository First issue 246 contributions in private repositories Jan 1 - Jan 26 You can't perform that action at this time.

https://github.com/GloryKim