메뉴 건너뛰기

ENGLISH

XEDITION

Mobile Tab

엔비디아, 긴 영상일수록 분석 능력 향상하는 VLM ‘이글 2.5’ 출시

 

(사진=엔비디아)

엔비디아가 이미지와 영상, 텍스트를 함께 이해할 수 있는 새로운 비전-언어 모델(VLM)을 공개했다. 긴 글이나 긴 영상처럼 컨텍스트가 길어질수록 성능이 오히려 더 좋아진다는 점이 특징으로, 8B에 불과한 크기로 GPT-4o와 같은 큰 모델과 맞먹는 성능을 보인다고 강조했다. 

 

엔비디아는 22일(현지시간) 긴 컨텍스트를 효과적으로 처리할 수 있도록 설계된 VLM ‘이글 2.5(Eagle 2.5)’에 관한 논문을 온라인 아카이브에 게재했다.

 

최근 몇년간 비전-언어 모델은 이미지와 텍스트, 영상 간의 연계를 강화하며 빠르게 진화해 왔다. 그러나 고해상도 이미지나 장시간 영상처럼 장문 맥락을 포함한 멀티모달 데이터 처리에는 한계가 있었다. 기존 모델은 짧은 문맥에 최적화돼 있어, 입력 길이가 길어질수록 성능 저하와 비효율적인 메모리 사용, 의미 정보 손실 등 문제가 발생했다.

 

이런 문제를 해결하기 위해 이글 2.5는 단순히 입력 토큰 수를 늘리는 데 그치지 않고, 입력 길이가 증가할수록 성능이 오히려 향상하는 구조적 설계와 학습 전략이 적용됐다. 

 

학습 전략으로 '정보 우선 샘플링(Information-First Sampling)'과 '점진적 후속 학습(Progressive Post-Training)' 등 2가지를 도입했다.

 

정보 우선 샘플링은 시각적, 의미론적으로 핵심 콘텐츠를 최대한 보존하는 것을 목표로 한다. '이미지 영역 보존(IAP)'이라는 기법으로 원본 이미지의 60% 이상을 유지하면서 화면 비율 왜곡을 최소화한다.

 

여기에 '자동 저하 샘플링(ADS)'을 더해, 입력 문맥의 길이에 따라 영상과 텍스트의 정보를 동적으로 조율한다. 텍스트 시퀀스는 온전히 유지하면서도 상황에 따라 영상의 세부 정보는 효율적으로 압축하거나 조정할 수 있다.

 

또 하나의 핵심 전략인 점진적 후속 학습은 모델의 문맥 처리 능력을 점진적으로 확장하는 방식이다. 학습 단계에서 32K, 64K, 128K 토큰 크기의 입력을 순차적으로 입력, 특정 길이에 과적합되지 않도록 유도한다.

 

아키텍처도 기술적으로도 견고하게 구축했다. SigLIP 기반의 비전 인코더와 다층퍼셉트론(MLP) 프로젝션 레이어를 사용해 언어 모델과의 정렬을 수행하며, 별도의 도메인 특화 압축 모듈 없이 다양한 작업 유형에 유연하게 대응할 수 있도록 설계됐다.

 

 

비디오-MME 벤치마크 (사진=아카이브)

잘 구성한 학습 데이터도 성능 향상에 큰 역할을 했다.

 

엔비디아는 공개된 데이터를 활용하는 것에 더해, 긴 영상 내용을 잘 이해할 수 있도록 특별히 만든 자체 데이터셋 ‘이글-비디오-110K’를 사용했다. 이야기 흐름과 영상 속 세부 정보까지 모두 배울 수 있도록 구성했다.

 

이 데이터셋을 만드는 데에는 두가지 벙식이 사용됐다. 먼저 하향식(top-down) 방식은 사람이 정리한 영상의 챕터 정보에 기반해 GPT-4가 자세한 설명과 질문-답변 쌍을 만들어낸다. 반대로 상향식(bottom-up) 방식은 영상 클립을 짧게 잘라 GPT-4o가 자동으로 질문과 답을 만들고, 시간과 문맥 정보를 추가해 더 정확하게 내용을 이해할 수 있게 돕는다.

 

데이터셋의 가장 큰 장점은 다양한 콘텐츠를 담고 있다는 것이다. 비슷한 영상이 반복되지 않도록 '코사인 유사도'라는 기준으로 중복을 걸러내고, InternVid, Shot2Story, VidChapters 같은 다양한 출처에서 새롭고 유익한 영상만 골라 담았다. 덕분에 이글 2.5는 긴 영상 속에서 이야기의 흐름을 잘 파악하고, 장면마다 중요한 정보를 놓치지 않고 이해할 수 있는 능력을 키울 수 있게 됐다.

 

 

영상 벤치마크 (사진=아카이브)

이글 2.5는 80억개의 매개변수를 갖춘 경량 모델이지만, 다양한 영상과 이미지 벤치마크에서 강력한 성능을 입증했다. 특히 단순히 입력 토큰 수를 확장한 기존 모델들과 달리, 이글 2.5는 입력 길이가 길어질수록 꾸준히 성능이 향상되는 점으로 주목받고 있다.

 

'비디오-MME' 벤치마크에서 72.4%의 점수를 기록하며, GPT-4o(71.9%)는 물론 '큐원2.5-VL-72B(65.1%)' 등 훨씬 큰 모델보다 나은 성능을 보였다. 이보다 성능이 뛰어난 것은 구글의 '제미나이 1.5 프로(75%)' 뿐이었다. 

 

영상 벤치마크에서는 MV벤치에서 74.8점, MLVU에서 77.6점, 롱비디오벤치에서 66.4점을 기록했다. 이미지 벤치마크에서는 DocVQA에서 94.1점, 챠트QA에서 87.5점, 인포VQA에서 80.4점을 달성하는 등 전반적으로 우수한 성능을 입증했다.

 

한편, 엔비디아가 최근 모델을 출시하며 오픈AI나 딥시크 등을 경쟁 대상으로 언급하는 것도 눈길을 끈다.

 

지난 9일에는 추론 모델 '라마-3.1-네모트론-울트라-253B-v1(Llama-3.1-Nemotron-Ultra-253B-v1)'을 오픈 소스로 공개하며, '딥시크-R1'의 매개변수 절반으로 더 성능이 뛰어나다고 강조했다. 이번에는 8B 매개변수로 GPT-4o와 맞먹는다는 내용을 앞세웠다.

 

이글 2.5의 코드는 깃허브에서 다운로드할 수 있으며, 모델은 허깅페이스에 공개할 예정이다.

 

박찬 기자 cpark@aitimes.com

 

출처 : AI타임스(https://www.aitimes.com)

 
번호 제목 이름 날짜 조회 수
공지 [보도자료] KAIST, ‘엔비디아 통합메모리’ 없이 세계 최고속 그래프 연산 성공 관리자 2025.08.22 152
공지 [보도자료] 아부다비 자율드론 대회, "AI 드론이 인간 조종사 물리치고 우승" 관리자 2025.08.22 125
공지 [보도자료] 전국 고속도로 전 구간 '자율주행차 시범지구' 지정 관리자 2025.08.22 122
공지 [보도자료] 제20회 한국로봇종합학술대회 최우수 논문상 '충북대 김곤우 교수 팀' 차지 관리자 2025.02.17 693
공지 [보도자료] 지능로봇공학과 김곤우 교수, 첨단분야 혁신융합대학사업 교육부 장관표창 수상 관리자 2025.01.24 626
공지 [보도자료]충북대 Clothoid-T팀 '2024 스케일카 자율주행 경진대회' 교육부장관상 수상 관리자 2024.11.26 693
공지 [보도자료] 지능로봇학과 타요이글스 'F1 Tenth Korea Championship 자율주행대회' 준우승 쾌거 관리자 2024.11.06 648
공지 [보도자료] 미래 안보주역들이 보는 군 발전 방향은 (김태민 지능로봇공학과 3학년 최우수상 수상) 관리자 2024.11.04 627
공지 [보도자료] [자막뉴스] '운전자 없어도 이 정도'...자율주행 기술 선보여(이전혁 제어로봇공학전공 박사수료) 관리자 2024.11.04 458
공지 [보도자료] 충북대 Clothoid-R팀, 미래 자동차 기술은 우리가 선도한다! 관리자 2024.09.30 547
공지 [보도자료] 충북대 지능로봇공학과 SUVLab팀, 정찰 드론 기술 앞섰다! 국방부장관배 드론봇챌린지 수목통과 정찰드론 종목 1위 관리자 2024.09.13 14371
공지 [보도자료] 충북대, ‘F1 Tenth 그랑프리 자율주행대회’ 준우승 관리자 2024.06.11 2395
공지 [보도자료] 충북대 자율주행 로봇레이스 `두각' 관리자 2024.05.28 2353
공지 충북대 자율주행 로봇레이스 `두각' 관리자 2024.05.28 2173
공지 [보도자료] 충북대 박찬식 교수, 과학기술진흥유공 장관표창 관리자 2024.05.09 2276
공지 [보도자료]김곤우 충북대 지능로봇공학과 교수, 산업통상자원부장관 표창 수상 관리자 2023.10.18 2464
공지 [보도자료] 첨단기술 융합한 ‘로봇’ 일상화 시대 맞이…업계 움직임도 활기 관리자 2023.05.08 2241
공지 [보도자료] Clothoid-R팀, 2023 자율주행 로봇레이스대회 우수상 수상 관리자 2023.04.20 2354
공지 [보도자료] 국방혁신4.0 상징 국방AI센터, “이공계 석·박사 출신 전문사관 등용하고 데이터 접근성 확대해야” 관리자 2023.03.13 2298
153 [보도자료] 칭화대·상하이 AI 랩, 라벨링 없이 자체 진화하는 LLM 기술 ‘테스트-타임 강화학습(TTRL)’ 발표 관리자 2025.08.22 20
» [보도자료] 엔비디아, 긴 영상일수록 분석 능력 향상하는 VLM ‘이글 2.5’ 출시 관리자 2025.08.22 19
151 [보도자료] 충북대, IEEE 지능형 차량 심포지엄 논문 발표 관리자 2025.08.22 23
150 [보도자료] 충북대 자율주행 로봇레이스 `두각' file 관리자 2024.05.28 1736
149 충북대 자율주행차연구실 Clothoid팀, ‘2023년 오토웨어(Autoware) 챌린지 국제대회' 3위 입상 쾌거 관리자 2024.01.24 2685
위로