Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 11.07 14:52
142 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,021 / 50 페이지
(퍼플렉시티가 정리한 기사)메타 플랫폼스는 금요일, 회사가 “초지능”이라고 부르는 것을 달성하기 위한 경쟁의 일환으로 인공지능 데이터 센터 구축에 초점을 맞춰 향후 3년간 미국 인프라와 일자리에 6,000억 달러를 투자할 것이라고 발표했습니다.CEO 마크 저커버그가 9월 백악관 만찬에서 도널드 트럼프 대통령에게 처음 공개한 이 대규모 투자 계획은 미국 역사상 가장 큰 기업 인프라 투자 중 하나를 나타냅니다. 이 투자는 2028년까지 AI 기술, 인프라 개발 및 인력 확충을 지원할 것입니다.투자자 우려 속 공격적 확장이번 발표는 메타가 AI 지출에 대한 증가하는 감시에 직면하면서 나왔다. 회사의 주가는 지난주 3분기 실적 보고서 발표 후 16% 이상 급락하여 약 3,070억 달러의 시가총액이 증발했으며, 투자자들은 회사의 증가하는 자본 지출에 대한 투자 수익률에 의문을 제기했다. 메타는 2025년 자본 지출 가이던스를 700억 달러에서 720억 달러 사이로 상향 조정했으며, 2026년에는 “현저히 더 큰” 지출을 예상하고 있다.시장의 혼란에도 불구하고, 월스트리트 애널리스트들은 비교적 확고한 목표 주가를 유지했으며, 컨센서스 전망은 30% 이상의 상승 잠재력을 시사했다. 회사는 실적 발표에서 자사의 전략을 옹호했으며, 저커버그는 “가장 낙관적인 경우에 대비할 수 있도록 공격적으로 용량을 선제적으로 확보하는 것이 올바른 전략”이라고 말했다.주요 프로젝트 및 자금 조달Meta는 최근 루이지애나주 하이페리온 데이터 센터 건설 자금 조달을 위해 Blue Owl Capital과 기록적인 270억 달러 규모의 금융 거래를 체결했으며, 이는 전 세계적으로 가장 큰 프로젝트입니다. 400만 평방피트 이상의 면적에 최대 5기가와트의 전력을 사용할 것으로 예상되는 이 시설은 2030년까지 완공될 예정입니다. 계약에 따라 Blue Owl은 80%의 지분을 보유하고 Meta는 20%의 소유권과 운영 통제권을 유지합니다.10월에 Meta는 텍사스주 엘패소에 15억 달러를 투자하여 데이터 센터를 건설할 계획을 발표했으며, 이는 전 세계적으로 29번째 시설이자 텍사스주에서는 세 번째 시설입니다. 120만 평방피트 규모의 캠퍼스는 1기가와트까지 확장 가능하며, 건설 인력 1,800명과 정규직 운영 인력 100명을 포함하여 거의 2,000개의 일자리를 창출할 것으로 예상됩니다.
104 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)OpenAI CEO 샘 올트먼은 이번 주 회사가 클라우드 컴퓨팅 시장에 진출할 의향을 시사했으며, 이는 인공지능 선도 기업을 가장 가까운 파트너들과 직접 경쟁하게 만들 수 있는 극적인 전략적 전환을 의미합니다.11월 6일 X에 올린 게시물에서 올트먼은 OpenAI가 “다른 회사들(그리고 사람들)에게 컴퓨팅 용량을 보다 직접적으로 판매하는 방법을 모색하고 있다”고 밝혔으며, 회사는 “세상이 많은 ‘AI 클라우드’를 필요로 할 것이라고 확신하며, 이를 제공하게 되어 기쁘다”고 덧붙였습니다. 이번 발표는 OpenAI가 향후 8년간 체결한 약 1조 4천억 달러 규모의 인프라 약정에 대한 자금 조달 방안을 모색하는 가운데 나왔습니다.소비자에서 공급자로이번 움직임은 OpenAI를 세계 최대 클라우드 서비스 소비자 중 하나에서 Amazon Web Services, Microsoft Azure, 그리고 Google Cloud Platform과 경쟁하는 제공업체로 변모시킬 것입니다. 이들은 전 세계 엔터프라이즈 클라우드 인프라 시장의 약 62%를 장악하고 있습니다. AWS는 약 29%의 시장 점유율을 보유하고 있으며, Microsoft가 20%, Google Cloud가 13%로 뒤를 잇고 있습니다.OpenAI가 클라우드 제공업체가 될 가능성은 CFO Sarah Friar의 이전 발언으로 신빙성을 얻었습니다. 그녀는 9월에 클라우드 파트너들이 “우리 비용으로 학습하고 있다”고 말했습니다. “우리가 파트너들이 AI 데이터 센터를 설계하도록 돕고, 그들이 학습하고, 우리가 그 데이터 센터에서 훈련하거나 추론할 때조차… 그들은, 저는 때때로 이것을 우리 비용으로 조금 학습하고 있다고 생각합니다”라고 Friar는 Goldman Sachs 컨퍼런스에서 말했습니다.10월에 발표된 재구성된 Microsoft 파트너십에 따르면, OpenAI의 무상태 API 요청은 독립적인 전문가 패널이 인공일반지능이 달성되었다고 판단하지 않는 한 2030년까지 Azure에서만 독점적으로 유지됩니다. 그러나 ChatGPT를 포함한 다른 OpenAI 제품은 이제 여러 플랫폼에 배포될 수 있습니다. OpenAI는 추가로 2,500억 달러 규모의 Azure 서비스를 구매하기로 약속했지만, Microsoft는 더 이상 OpenAI의 컴퓨팅 제공업체로서 우선협상권을 보유하지 않습니다.재정적 압박이 전략을 주도하다OpenAI는 2025년 말까지 200억 달러 이상의 연간 매출을 달성할 것으로 예상하며, 2030년까지 수천억 달러 규모로 성장할 것으로 전망하고 있습니다. 이 회사는 최근 Amazon과 380억 달러 규모의 7년 클라우드 계약을 체결했으며, 이는 Microsoft와의 계약 재협상 이후 첫 번째 주요 인프라 파트너십입니다. OpenAI는 또한 Oracle(3,000억 달러), Nvidia(1,000억 달러), AMD(900억 달러)와 대규모 계약을 확보했습니다.클라우드 제공업체가 되는 것은 OpenAI가 대규모 인프라 투자를 수익화하는 동시에 궁극적으로 경쟁자가 될 수 있는 파트너에 대한 의존도를 줄이는 데 도움이 될 수 있습니다. 대규모로 운영될 경우, 클라우드 비즈니스는 상당한 반복 수익을 창출합니다. AWS만 해도 연간 1,320억 달러의 매출을 기록하고 있습니다.
102 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)중국 전기차 제조업체 샤오펑(Xpeng)은 11월 5일 광저우에서 열린 AI 데이 행사에서 차세대 아이언(Iron) 휴머노이드 로봇을 공개했는데, 그 움직임이 너무나 사람처럼 자연스러워 회사는 무대 위에서 로봇을 절개하여 내부에 사람이 숨어있지 않다는 것을 증명해야 했다.이 시연은 아이언의 우아한 런웨이 데뷔 이후 소셜 미디어에서 회의론이 폭발한 후에 이루어졌다. 허 샤오펑(He Xiaopeng) CEO에 따르면, “테슬라의 로봇도 이런 건 못 하는데 샤오펑이 어떻게 이걸 만들 수 있겠어?“라는 댓글이 입소문을 탔다고 한다. 회사는 다음 날 로봇의 전원을 켜고 다리 커버를 절개하여 금속 관절, 액추에이터, 배선을 포함한 기계 부품들을 노출시키며 기계가 계속 걷는 모습을 보여주는 것으로 대응했다.고급 아키텍처가 사실적인 움직임을 구현합니다Iron은 각 손에 22개씩 포함하여 82개의 자유도를 갖추고 있어, 전례 없는 정교함으로 구부리고, 제스처를 취하고, 물체를 다룰 수 있습니다. 이 로봇은 키가 5피트 10인치이고 무게는 154파운드이며, 인간형 척추, 생체 모방 근육, 그리고 완전히 덮인 합성 피부를 특징으로 하는 “내부에서 탄생한” 디자인 콘셉트를 가지고 있습니다.이 기계는 초당 2,250조 번의 연산을 수행하는 세 개의 맞춤형 Turing AI 칩으로 구동되며, Xpeng에 따르면 “현재까지 개발된 가장 강력한 인간형 로봇 중 하나”입니다. 이 로봇은 회사의 Vision-Language-Action 2.0 모델을 실행하며, 이는 언어 번역 없이 시각적 입력을 물리적 동작으로 직접 처리합니다.Iron은 또한 전고체 배터리를 사용하는 최초의 인간형 로봇으로, 기존 리튬이온 배터리에 비해 더 높은 에너지 밀도와 향상된 안전성을 제공합니다. Notebookcheck에 따르면, 전고체 배터리는 킬로그램당 500와트시 이상에 도달할 수 있으며, 이는 동일한 공간에서 테슬라의 Optimus 로봇 배터리 용량의 두 배입니다.2026년 상용화 배치 예정Xpeng은 2026년 말까지 대량 생산을 목표로 하고 있으며, 초기 배치는 가정이 아닌 상업 환경에서 이루어질 예정입니다. “미래에는 로봇이 삶의 동반자이자 동료가 될 것입니다”라고 He는 프레젠테이션에서 말하며, 사용자가 결국 체형, 머리 길이, 의복을 맞춤 설정할 수 있게 될 것이라고 덧붙였습니다.로봇은 먼저 Xpeng 소매점, 사무실, 쇼룸에서 안내원과 판매 보조원 역할을 하기 위해 등장할 것입니다. 중국 철강 생산업체 Baoshan Iron & Steel은 이미 산업 모니터링 애플리케이션을 위한 로봇 테스트의 초기 파트너로 계약했습니다. 개발을 가속화하기 위해 Xpeng은 전 세계 개발자들이 플랫폼용 애플리케이션을 구축할 수 있도록 SDK를 출시할 것이라고 발표했습니다.이번 공개로 Xpeng은 급속히 확장되는 휴머노이드 로봇 시장에서 Tesla의 Optimus 프로그램과 직접 경쟁하는 위치에 서게 되었으며, Goldman Sachs는 이 시장이 2035년까지 380억 달러에 이를 것으로 예상합니다. Xpeng 주가는 AI Day 행사 이후 11월 7일 10.8% 상승한 24.15달러를 기록했습니다.
96 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)구글이 오랜 기간 사용되어 온 구글 어시스턴트를 대체하는 젬미니 AI 어시스턴트를 안드로이드 오토에 조용히 도입하기 시작했습니다. 이는 수년 만에 이 플랫폼에 가해진 가장 중요한 업데이트 중 하나입니다. 이번 업데이트는 2025년 11월 5일부터 시작되었으며, 우선 안드로이드 오토 15.6 및 15.7 버전의 베타 테스터들에게 배포되었습니다.이번 변화는 기존의 앱 다운로드 방식이 아닌 서버 측 업데이트로 이뤄졌기 때문에, 구글이 접근 권한을 통제합니다. 여러 사용자가 수요일 늦은 저녁부터 Reddit과 소셜 미디어에 이 전환 사실을 보고했으며, 새로운 어시스턴트는 Pixel 10 Pro XL과 Galaxy Z Fold 7을 비롯한 다양한 기기에서 등장했습니다. 구글은 이 전환을 2025년 5월 I/O 컨퍼런스에서 처음 발표했으나, 당시에는 구체적인 일정은 제공하지 않았습니다.자연어와 Gemini Live가 중심 무대를 차지하다Gemini는 자연어 이해 능력을 향상시키고 Home, Keep, Maps 등 Google 서비스와의 통합을 더욱 깊게 제공합니다. 이 어시스턴트는 익숙한 “Hey Google” 호출어를 계속 지원하면서도, “let’s talk live” 명령으로 접근할 수 있는 대화형 AI 기능인 Gemini Live를 추가했습니다. 활성화되면 Gemini Live는 대시보드의 미디어 위젯을 대체해 운전자가 중간에 대화를 끊거나 후속 질문을 할 수 있게 합니다.이번 업데이트를 통해 40개 이상의 언어로 문자를 자동 번역할 수 있게 되었으며, 수신 및 발신 커뮤니케이션 모두를 지원합니다. 9to5Google에 따르면 Gemini는 Gmail과 캘린더의 정보를 교차 참조할 수 있으며, 운전자가 레스토랑을 찾거나, 영업시간을 확인하고, 음성 명령만으로 목적지까지 네비게이션을 이용할 수 있도록 도와줍니다.출시와 함께 새로운 설정도 추가되었으며, “실시간 응답 끄기”와 “정확한 위치 공유” 토글이 기본적으로 활성화되어 있습니다. 휴대전화나 스마트 스피커의 Gemini와 달리, Android Auto 버전은 운전자의 방해를 최소화하기 위해 답변을 간결하게 유지합니다.트레이드오프와 불확실한 일정이번 전환에는 적어도 하나의 주목할 만한 손실이 따른다. 바로 Gemini가 연락처 별명을 인식하지 않는다는 점이다. 이전에는 사용자가 지정한 라벨을 이용해 “엄마에게 전화해” 또는 “상사에게 문자 보내”와 같이 명령할 수 있었던 기능이다. 초기 사용자는 롤아웃 이후 Reddit 토론에서 이 제한점을 확인했다.구글은 베타 테스터를 넘어 일반 대중에게 이 업데이트가 언제 제공될지 발표하지 않았다. 현재 Android Auto가 전 세계 2억 5천만 대 이상의 차량에서 지원됨에 따라, 향후 전체 배포는 구글 역사상 가장 대규모 AI 롤아웃 중 하나가 될 전망이다. 이번 주에는 Google 지도에 대화형 내비게이션 및 교통 정보 제공을 위한 Gemini 기능이 추가되면서, 이 배포 시기가 그 뒤를 잇고 있다.
96 조회
0 추천
11.08 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입