Loading...

AI 뉴스

AI가 비디오에서 사회적 단서를 읽는 능력에서 인간과 대등

페이지 정보

작성자 xtalfi
작성일 09.07 13:55
64 조회
0 추천
0 비추천

본문

99fb057b7ae0e41651d797c6708c91995P0F.jpg

(퍼플렉시티가 정리한 기사)

 

핀란드 투르쿠 대학교의 획기적인 연구에 따르면, 인공지능은 인간의 사회적 상호작용을 해석하는 데 있어 새로운 이정표에 도달했으며, 이미지와 비디오에서 복잡한 사회적 행동을 평가하는 정확도 면에서 인간 평가자와 맞먹는 수준에 이르렀다.

이 연구는 9월 4일 Imaging Neuroscience 학술지에 게재되었으며, AI가 미묘한 사회적 신호를 이해하는 능력에 대해 지금까지 가장 포괄적인 평가를 제공한다. 투르쿠 PET 센터의 연구진은 ChatGPT와 GPT-4V를 138개의 다양한 사회적 특성에 걸쳐 시험했으며, AI의 평가를 2,000명 이상의 인간 참가자들의 평가와 비교했다.

투르쿠 대학교의 박사후 연구원인 세베리 산타비르타(Severi Santavirta)는 "ChatGPT의 사회 특성 평가가 평균적으로 한 명의 참가자보다 더 일관적이었기 때문에, AI의 평가 결과는 한 사람이 내린 판단보다 오히려 더 신뢰할 수 있다"고 말했다. 이 AI는 얼굴 표정과 몸짓부터 협력과 적대감 같은 복잡한 상호작용 역학에 이르기까지 다양한 사회적 특성을 파악하는 데 놀라운 일관성을 보였다.

 

신경 수준의 검증이 AI의 사회적 지능을 확인하다

핀란드 연구팀은 행동 비교를 넘어, AI의 사회적 지각이 인간의 뇌 활동 패턴과 일치하는지를 조사했습니다. 97명의 참가자가 사회적으로 풍부한 영상 클립을 시청하는 동안 기능적 MRI 데이터를 이용해 연구진은 GPT-4V의 평가가 인간 주석과 거의 동일한 뇌 활성화 지도를 생성한다는 사실을 발견했습니다.

AI와 인간이 생성한 뇌 지도 간의 상관관계는 0.95에 이르렀으며, 여기에는 상측두고랑, 측두두정접합부, 방추상회 등 핵심적인 사회 지각 네트워크가 포함되었습니다. 이러한 신경학적 검증은 AI 모델이 인간이 사회 정보를 처리할 때 사용하는 것과 유사한 표상 구조에 접근하고 있을 가능성을 시사합니다.

연구의 방법론에는 할리우드 영화에서 추출된 468장의 정적 이미지와 234개의 짧은 영상 장면을 분석하는 것이 포함됐으며, AI 시스템은 "웃기"나 "누군가를 만지기" 같은 구체적 행동부터 "지배적", "공감적"과 같은 추상적 특성까지 평가했습니다. AI와 인간 평가 간의 상관관계는 이미지와 영상 모두에서 0.79에 달해, 개별 인간 참가자 간에서 보이는 신뢰도에 근접한 수준이었습니다.

 

산업 전반에 걸친 혁신적인 응용

연구 결과는 여러 분야에서 현실 세계의 응용 가능성을 크게 열어줍니다. 의료 분야에서는 AI가 지속적인 비디오 분석을 통해 환자의 건강 상태를 모니터링하고, 스트레스 신호나 행동 변화를 감지하여 의료상의 문제를 확인할 수도 있습니다. 이러한 기술은 피로 없이 24시간 작동할 수 있기 때문에 환자 모니터링 시스템에서 특히 가치가 큽니다.

또한, 보안 응용 분야는 또 다른 중요한 기회를 제공합니다. AI 시스템은 잠재적으로 감시 영상에서 의심스러운 행동을 식별하거나 갈등을 예측할 수 있습니다. 이 기술은 비디오 통화에서 감정적 신호를 분석하여 고객 서비스를 강화하고, 기업이 고객의 요구와 반응을 더 잘 이해하는 데에도 사용할 수 있습니다.

산타비르타에 따르면, 효율성 향상은 상당하다고 합니다. "인간 평가를 수집하는 데 2,000명 이상의 참가자와 총 10,000시간 이상의 작업 시간이 필요했지만, ChatGPT는 동일한 평가를 단 몇 시간 만에 산출했습니다".

 

제한사항 및 향후 고려사항

이러한 발전에도 불구하고, 연구는 중요한 한계점을 드러냈습니다. AI가 개별 인간 평가자들과는 비슷한 수준을 보였지만, 집단적 인간 판단이 여전히 AI 평가보다 더 정확했습니다. 또한, AI와 인간 평가자들 간의 일관성이 약하게 나타난 사회적 특징들도 있었는데, 특히 ‘누군가를 괴롭히는 행동’과 같은 복잡한 행동이나 ‘평온함을 느끼는’ 등 감정 상태에서 그러했습니다.

연구는 또한 현재의 AI 모델들이 인간의 사회적 인식에 존재하는 세밀한 요소 중 일부를 아직 포착하지 못한다는 점을 강조했습니다. 그럼에도 불구하고, AI는 수십 년간 사회 심리학에서 인정받아 온 사회적 이해의 주요 차원들은 성공적으로 반영했습니다.

AI 기술이 계속 발전함에 따라, 최근 공개된 GPT-5와 같은 모델들이 더 향상된 기능을 약속하고 있습니다. 이러한 변화 속에서 인간의 사회적 행동을 이해하고 해석하는 능력은 인간과 AI 간의 상호작용 시스템을 한층 정교하게 만들 수 있는 중요한 단계로, 행동 연구와 산업 전반에 걸친 사회적 모니터링 방식을 변화시킬 수 있을 것입니다.

댓글 0
전체 175 / 9 페이지
(퍼플렉시티가 정리한 기사)스위스는 자국 최초의 완전 오픈소스 다국어 대형 언어 모델인 Apertus를 공개하며, 프라이버시를 중시하고 투명성과 규제 준수를 위해 구축된 대안을 통해 알프스 국가가 미국과 중국의 AI 지배에 도전하는 입지를 다졌습니다. 9월 2일 발표는 전 세계 AI 경쟁에서 중요한 이정표로, 스위스가 독립적인 AI 인프라를 추구하는 세계적 움직임에 동참했음을 의미합니다.Apertus는 스위스 로잔연방공과대학교(EPFL), 취리히연방공과대학교(ETH Zurich), 그리고 스위스국립슈퍼컴퓨팅센터(CSCS) 간의 협력을 통해 개발되었으며, 자체 개발 과정 전체를 대중에게 공개함으로써 ChatGPT나 Claude와 같은 독점 시스템과 차별화됩니다. 모델의 이름은 라틴어 '오픈(open)'에서 유래했으며, 구조, 학습 데이터, 모델 가중치, 그리고 중간 체크포인트까지 투명성을 강조하는 의지를 반영합니다.기술 사양 및 다국어 중심Apertus는 두 가지 버전—80억 매개변수와 700억 매개변수—로 제공되며, 1,000개 이상의 언어에서 15조 개의 토큰으로 학습되었습니다. 특히, 학습 데이터의 40%는 비영어권 언어로, 소외된 언어인 스위스 독일어와 스위스의 4대 공용어 중 하나인 로만슈어 등이 포함되어 있습니다. 이러한 다국어 접근 방식은 보통 영어 콘텐츠에 우선순위를 두는 주요 상업용 모델과 Apertus를 차별화시키는 요소입니다.이 모델은 루가노에 위치한 알프스 슈퍼컴퓨터에서 1천만 시간 이상의 GPU를 사용하여, 탄소 중립 전기로 학습되었습니다. 독점 대안들과 달리 Apertus는 연구자와 기관이 자체 서버로 모델을 다운로드하여 데이터에 대한 통제권을 유지할 수 있게 해주며, 이는 개인정보 보호를 중시하는 기관에 중요한 고려 사항입니다.프라이버시 우선 설계 및 규제 준수스위스 연구진은 Apertus가 스위스 데이터 보호법과 유럽연합 AI 법의 요구사항을 충족하도록 처음부터 설계되었다고 강조했다. 학습 데이터는 공개적으로 이용 가능한 데이터만 사용하며, 웹사이트의 기계 판독 opt-out 요청을 존중하고 개인정보를 제거할 수 있도록 필터링된다. 이러한 접근 방식은 다른 AI 시스템에서 문제가 되었던 저작권 침해와 무단 데이터 스크래핑에 대한 우려를 해소한다."신뢰할 수 있고 자주적이며 포용적인 AI 모델이 어떻게 개발될 수 있는지에 대한 청사진을 제공하는 것이 우리의 목표입니다."라고 EPFL의 머신 러닝 교수이자 Swiss AI Initiative의 운영위원회 위원인 Martin Jaggi가 말했다. 투명성에 대한 강조는 대중의 신뢰를 고취하고 AI 기술의 잠재적 위험에 대한 우려를 해소하려는 목적이다.업계 반응 및 경쟁스위스 은행업계는 아페르투스(Apertus)에 대해 신중한 낙관론을 나타냈으며, 스위스 은행가 협회는 특히 엄격한 데이터 보호 및 은행 비밀 준수 요건을 감안할 때 금융 산업에 "장기적으로 큰 잠재력"이 있다고 평가했습니다. 하지만 UBS와 같은 주요 스위스 금융기관들은 이미 다른 플랫폼을 활용하여 AI 솔루션을 도입하고 있습니다. 예를 들어, UBS는 최근 마이크로소프트와 협력하여 자사 자산관리 업무에 Azure AI 서비스와 OpenAI 기술을 도입했습니다.AI 플랫폼 허깅페이스(Hugging Face) 연구 책임자인 레안드로 폰 베라(Leandro von Werra)는 아페르투스를 "지금까지 가장 야심찬 오픈소스 모델 중 하나"라고 평했으며, 그 규모와 연산 요구사항으로 볼 때 "오픈 모델에서 확실히 새로운 이정표"라고 평가했습니다. 이 모델은 허깅페이스와 스위스콤(Swisscom)의 독립적인 스위스 AI 플랫폼 등 다양한 채널을 통해 제공됩니다.기술적 성취에도 불구하고 아페르투스는 상당한 상업적 도전에 직면해 있습니다. 스위스 산업 그룹 스위스멤(Swissmem)은 자국 내 LLM이 유럽 데이터 규제 준수를 통해 현지 기업에 더 적합할 수 있지만, "경험상 모든 요구에 부합하는 단일 솔루션은 없다"고 인정했으며, 일부 기업들은 국제 대안을 계속 사용할 가능성이 높다고 덧붙였습니다.이 출시는 개발자들이 모델의 기능을 테스트하고 향후 개선을 위한 피드백을 제공하는 스위스 AI 위크 해커톤(Swiss AI Weeks hackathons)과 시기적으로 맞물려 진행되고 있습니다. 연구진은 프로젝트의 핵심 원칙인 투명성과 공공 접근성을 유지하면서, 의료, 법률, 기후 과학, 교육 등 특화 분야별 버전을 개발할 계획입니다.
90 조회
0 추천
09.05 등록
(퍼플렉시티가 정리한 기사)Google은 Google Photos의 사진-동영상 변환 기능을 자사의 첨단 Veo 3 인공지능 모델로 업그레이드했으며, 이는 최첨단 생성형 AI 기술을 일반 사용자에게 제공하려는 최신 조치입니다. 이 업그레이드는 수요일에 공식 발표되었으며 2025년 9월 4일부터 미국 사용자들에게 제공될 예정으로, 이전 Veo 2 시스템에 비해 동영상 품질이 크게 향상될 것을 약속합니다.이 업그레이드는 Google Photos의 새로운 "Create"(만들기) 탭 내에 포함되어 있으며, 이 탭은 AI 기반 창작 도구를 한 곳에 모아놓은 허브로, 회사는 8월부터 점진적으로 이 기능들을 도입해 왔습니다. 사용자는 이미지를 선택한 후 "섬세한 움직임" 또는 "운에 맡기기"라는 두 가지 애니메이션 프롬프트 중 하나를 선택하여, 6초 길이의 고화질 동영상 클립을 생성할 수 있습니다.향상된 비디오 품질 및 성능Google 대변인 마이클 마르코니(Michael Marconi)에 따르면, Veo 3는 이전 버전에 비해 해상도와 전반적인 클립 품질 면에서 상당한 개선을 제공한다고 합니다. 업그레이드된 모델은 더 사실적인 물리 시뮬레이션, 더 나은 조명과 반사, 그리고 향상된 객체 추적 기능을 제공하여 이전 버전의 특징이었던 ‘부유하는 듯한 움직임’과 같은 일반적인 문제들을 해결했습니다.주요 발전점은 Veo 3의 우수한 프롬프트 처리 능력에 있습니다. Veo 2가 기본적인 영화 촬영 지시만 수용했던 반면, Veo 3는 더 복잡한 시각적 지시를 더욱 직설적으로 실행하고, 일반적인 결과물을 줄여 사용자들이 원하는 예술적 의도에 더 근접한 클립을 만들어냅니다.하지만 이 업그레이드는 몇 가지 절충점도 수반합니다. Veo 3를 통해 Google Photos에서 생성된 동영상의 길이는 이제 4초로, 이전의 6초 클립보다 짧아졌고, Veo 3가 기본적으로 소리 생성 기능을 갖추고 있음에도 불구하고 Gemini와 같은 다른 Google 제품에서와는 달리 음성 기능이 포함되어 있지 않습니다.접근 제한 및 구독 등급Google 포토 사용자는 하루에 제한된 수의 동영상 생성을 받을 수 있으며, 더 높은 할당량은 Google AI Pro(월 $20) 및 Google AI Ultra(월 $250) 구독자에게 제공됩니다. 무료 등급의 제한은 첨단 AI 동영상 생성에 필요한 계산 비용을 반영하며, 이는 업계 전반에 걸쳐 공통적으로 나타나는 제약입니다.Create 탭에는 사진을 애니메이션이나 만화 삽화와 같은 다양한 예술적 스타일로 바꿔주는 Remix, 여러 이미지를 결합할 수 있는 Collage, 사진 라이브러리로부터 자동으로 음악이 포함된 몽타주 영상을 만들어주는 Highlight Videos 등 추가적인 AI 도구들도 포함되어 있습니다.이러한 통합은 프리미엄 구독자에게만 제공됐던 첨단 AI 기능을, 2025년 5월 기준 월간 활성 이용자 15억 명 이상을 보유한 구글의 대표적인 사진 서비스로 대중화하려는 구글의 광범위한 전략을 반영하는 것입니다.
81 조회
0 추천
09.05 등록
(퍼플렉시티가 정리한 기사)Google DeepMind는 중력파 천문학에 중대한 전환점을 가져올 수 있는 인공지능 시스템을 개발했습니다. 9월 3일 과학 저널 Science에 게재된 이 혁신적인 AI 기술은 Deep Loop Shaping이라 불리며, 기존 방법에 비해 레이저 간섭계 중력파 관측소(LIGO)에서 불필요한 잡음을 30~100배까지 줄일 수 있음을 입증했습니다.Google DeepMind와 Caltech 및 이탈리아 그란사소 과학연구소 연구자들의 협업은 중력파 신호를 가릴 수 있는 LIGO의 40킬로그램짜리 거울의 미세한 진동을 제어하는 것에 집중했습니다. 이런 진동은 종종 먼 바다의 파도와 지진 활동에 의해 발생하며, 오랫동안 우주적 사건을 감지하는 관측소의 민감도에 한계를 주는 요인이었습니다.혁신적인 소음 제어 기술딥 루프 셰이핑(Deep Loop Shaping)은 강화 학습을 사용하여 AI 알고리즘이 LIGO의 거울을 더 잘 안정화하는 방법을 익히도록 합니다. “우리가 훈련 데이터를 제공했고, 구글 딥마인드가 시뮬레이션을 실행했습니다. 기본적으로, 그들은 수십 개의 시뮬레이션된 LIGO들을 병렬로 실행하고 있었습니다,”라고 캘리포니아 공과대학교(칼텍) 물리학 교수이자 논문 공동 저자인 라나 아디카리(Rana Adhikari)가 설명했습니다. 이 시스템은 노이즈 캔슬링 헤드폰의 고급 버전처럼 작동하지만, 기존 제어 시스템이 진동을 보상할 때 자체적인 “쉬익” 소음을 발생시키는 근본적인 문제를 해결합니다.이번 AI 혁신은 특히 10~30 헤르츠(Hz) 주파수 범위의 노이즈를 목표로 하며, 이는 더 거대한 블랙홀 합병을 탐지하고, 합병 과정 초기에 포착하는 데 매우 중요합니다. 이 주파수 대역은 유명한 중력파 “챠이프(chirp)”가 고주파로 올라가기 전에 시작되는 지점입니다.블랙홀 탐지의 새로운 지평을 열다향상된 감도 덕분에 LIGO는 이전에는 감지할 수 없었던 새로운 유형의 블랙홀, 즉 항성질량 블랙홀과 초대질량 블랙홀 사이의 간극을 잇는 중간질량 블랙홀까지 탐지할 수 있게 될 것으로 보입니다. 캘리포니아 공과대학교(칼텍)의 중력파 연구 과학자인 크리스토퍼 비프는 이 기술을 "지상 기반 탐지기가 할 수 있는 일에 대한 우리의 인식을 바꿔주는 도구"라고 설명했습니다.LIGO는 현재 네 번째 관측 기간 동안 이미 200건이 넘는 블랙홀 병합을 탐지했으며, 현재는 거의 3일에 한 번씩 블랙홀 병합을 식별하고 있습니다. 2025년 7월, 지금까지 가장 질량이 큰 블랙홀 병합을 탐지한 것은 관측소의 역량이 한층 강화되고 있음을 보여줍니다.구글 딥마인드의 주저자인 요나스 부흘리는 딥 루프 셰이핑(Deep Loop Shaping)을 "혁명적이다. 왜냐하면 LIGO에서 가장 불안정하고 가장 어려운 피드백 루프의 노이즈 수준을 줄일 수 있기 때문"이라고 평가했습니다. 이 AI 시스템은 LIGO에서 1시간 동안 개념 증명 시험이 이뤄졌으며, 연구진은 더욱 긴 시간 테스트와 LIGO 시스템 전반에 걸친 폭넓은 적용을 계획하고 있습니다.이 기술은 중력파 탐지 외에도 다양한 분야에 적용될 수 있습니다. 구글 딥마인드 연구원들에 따르면, 딥 루프 셰이핑은 "진동 억제, 소음 제거, 그리고 항공우주, 로봇공학, 구조공학 등에서 중요한 매우 동적이거나 불안정한 시스템"에 활용될 수 있습니다.
89 조회
0 추천
09.05 등록
SWITCHBOT이 IFA2025에서 귀여운 AI 로봇 반려동물 'Kata friends' 을 소개했다.귀엽고 털복숭이한 로봇들은 카메라와 내장형 대형 언어 모델(LLM)을 탑재해 자연어 명령을 이해하고물체 인식이 가능하며, 저지연(on-device low-latency)으로 항상 사용자의 곁에 있어주는동반자 역할을 목표로 한다. Noa와 Niko라는 이름의 이 로봇들은 주로 반려용으로 설계되었다고Kata friends는 가족 구성원을 인식하고, 몸짓과 감정에 반응하며, 행복, 슬픔, 심지어 질투 같은 감정도 표현한다.시간이 지남에 따라 사용자의 일상과 기억을 학습해 진화하는 존재가 된다고 SwitchBot은 설명한다.심지어 이 로봇들이 질투를 느낄 수 있다는 점은 다소 신기하고 신선한 개념이라고 체험을 한 GIZMODO 기자는 소개한다.로봇들은 작은 바퀴를 가지고 있어 스스로 움직일 수 있으며, 이것이 더 많은 상호작용과 자유로운 행동을 가능하게 한다.그러나 아직 출시 일정이나 가격 정보는 공개되지 않았다. 따라서 현재로선 정확히 언제 만나볼 수 있을지는 미지수이지만,SwitchBot은 과거에 혁신적인 로봇 제품들을 실제로 출시한 전력이 있어 기대를 모은다
84 조회
1 추천
09.05 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입