AI 뉴스

애플 Video 해석 LLM 테스트 중

페이지 정보

작성자 JeromePark
작성일 2025.08.25 12:54
545 조회
0 추천
0 비추천

본문

애플 연구진은 기존보다 더 효율적으로 롱폼  비디오를 분석할 수 있는 대형 언어모델(LLM)인 SlowFast-LLaVA-1.5를 개발했다고 발표했다.

2d02c1d03032a3e7cdb0adebc4e98a2aS3zX.png

애플은 'SlowFast' 구조(고해상도 소수 프레임+저해상도 다수 프레임)를 사용해  이미지와 영상 public 데이터셋을 모두 활용해 학습, 이미지만큼 영상 내 시간적 구조 이해도 가능하도록 했다. SF-LLaVA-1.5는 1B, 3B, 7B 파라미터 규모로 공개됐으며, LongVideoBench와 MLVU 같은 벤치마크에서 기존 더 큰 모델 대비 뛰어난 성능을 보였다. 특히 지식, 수학 추론, OCR 등 이미지 작업에서도 강점을 보였다. 

하지만 이 모델은 한 번에 최대 128프레임(빠름: 96, 느림: 32)만 입력받는다. 이 방식은 일부 중요한 프레임을 놓칠 수 있다는 한계가 있으며, 전체 매개변수와 비주얼 인코더까지 튜닝하려면 GPU 자원 소모가 크다. 연구진은 향후 메모리 절약, 성능 개선 기술의 적용 가능성을 언급했다.

댓글 0
전체 382 / 74 페이지
길창덕 만화가를 아시나요 50대들이라면 잘 아실 것 같은데요 (모르는 척 하지 마시고)ㅎㅎ이 꺼벙이가 AI 기술로 되살아날려나 봅니다.길창덕(1929~2010) 화백의 저작권을 기반으로 지난해 출범한 케이씨디컴퍼니(대표 길혜연)는 '꺼벙이' 지식재산(IP) 확장 프로젝트 추진, AI 기술 구현 숏폼 애니메이션 제작을 네이버웹툰 '컷츠'에서 공개할 계획이라고 합니다.꺼벙이를 모르는 젊은 분들을 위해 간단히 소개하면1970년 잡지 만화왕국에서 첫 등장하였고, 소년중앙(1973~1977)과 소년조선일보(1980~1990)에서 총 1584회 연재된 만화입니다.어떻게 나올지 기대되네요..
671 조회
1 추천
2025.08.16 등록
결론부터 보면 LG것과 SKT 것이 비슷한 성능이고 KT가 애매하게 3위..참고로 LG는 LG uplus는 아니고 LG AI 연구소의 것으로 비교한 것입니다
617 조회
1 추천
2025.08.16 등록
이 영상은 Google Genie 3. 의 월드모델에 대한 영상이긴 한데중간에 실제로 영상 편집 현장에서 왜 AI를 안쓰고 있는가, 쓰지 않는 이유는 무엇일까어떤 부분에서 AI를 사용하고 있는가 현직 헐리웃 편집자가 설명하는 부분이 있어서소개합니다.결론부터 말하자면 시안을 만드는 단계에서는 사용을 하는데 실제 작업에는 사람이 작업하는 쪽으 선택하고 있다네요.. 이유는 이 영상을 보시길.
655 조회
1 추천
2025.08.16 등록
AI 영상 편집이 어느 정도까지 되는지 소개하는 유튜브 입니다.
632 조회
0 추천
2025.08.16 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입