AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 11.07 14:52
113 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 962 / 35 페이지
(퍼플렉시티가 정리한 기사)구글은 목요일에 디지털 출판사를 위한 인공지능(AI) 기반 도구 모음을 공개했습니다. 광고 리뷰에서 성과 보고에 이르기까지 노동 집약적인 작업을 자동화함으로써, 구글은 라이브 스트리밍 수익화에 대한 증가하는 수요를 잡기 위해 자사의 입지를 다지고 있습니다.Ad Manager, AdSense, AdMob의 업데이트는 세 가지 AI 자동화 기능을 도입합니다. 첫 번째는 각 출판사의 개별 선호도를 학습하여 결국 원하지 않는 광고를 자동으로 차단할 브랜드 안전 시스템, 두 번째는 자연어 질의에서 맞춤형 성과 보고서를 생성하는 생성형 AI 보고 도구, 그리고 문제 해결 및 온보딩 지원을 위한 AI 기반 채팅 어시스턴트입니다.라이브 콘텐츠 수익화 타겟팅이 거대 기술 기업은 또한 새로운 CTV Live-biddable 솔루션을 통해 라이브 콘텐츠에 투자하고 있으며, 이는 퍼블리셔들이 스포츠 연장전이나 예정보다 길어진 시상식과 같이 예측 불가능한 높은 시청률 순간을 수익화할 수 있도록 지원합니다. 이러한 움직임은 보스턴 컨설팅 그룹과 구글의 10월 연구에 따르면, 구매자의 82%가 향후 12개월 동안 프로그래매틱 라이브 커넥티드 TV 투자를 늘릴 계획이라고 밝힌 가운데 나온 것입니다.DAZN의 미디어 운영 담당 수석 부사장인 로넌 매카시는 회사 발표에서 “Google Ad Manager의 라이브 CTV 솔루션을 통해 FIFA 클럽 월드컵을 전 세계 수백만 팬들에게 고품질 스트림으로 제공할 수 있었습니다”라고 말했습니다.구글의 글로벌 파트너십 및 판매측 수익화 담당 부사장인 스콧 셰퍼는 수요일 블로그 게시물에서 이러한 업데이트를 발표했습니다. AI 브랜드 안전 도구는 퍼블리셔가 광고 검토 센터에서 내린 결정을 분석하여 기본 카테고리 제한을 넘어선 선호도를 파악하며, 현재는 잠재적으로 원치 않는 광고를 표시하고 궁극적으로는 수동 개입 없이 이를 차단합니다.직접 거래 간소화Google은 또한 기존의 직접 거래 통제와 프로그래매틱 효율성을 결합한 기능인 Buyer Direct를 도입했으며, 이는 퍼블리셔 간 노출 빈도 관리, 실시간 리포팅 및 통합 청구 기능을 제공합니다. Google은 이번 업데이트가 퍼블리셔들을 수작업에서 해방시켜 콘텐츠 제작에 집중할 수 있도록 하는 동시에 새로운 수익원을 개척하는 것을 목표로 한다고 밝혔습니다.
65 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)메타 플랫폼스는 금요일, 회사가 “초지능”이라고 부르는 것을 달성하기 위한 경쟁의 일환으로 인공지능 데이터 센터 구축에 초점을 맞춰 향후 3년간 미국 인프라와 일자리에 6,000억 달러를 투자할 것이라고 발표했습니다.CEO 마크 저커버그가 9월 백악관 만찬에서 도널드 트럼프 대통령에게 처음 공개한 이 대규모 투자 계획은 미국 역사상 가장 큰 기업 인프라 투자 중 하나를 나타냅니다. 이 투자는 2028년까지 AI 기술, 인프라 개발 및 인력 확충을 지원할 것입니다.투자자 우려 속 공격적 확장이번 발표는 메타가 AI 지출에 대한 증가하는 감시에 직면하면서 나왔다. 회사의 주가는 지난주 3분기 실적 보고서 발표 후 16% 이상 급락하여 약 3,070억 달러의 시가총액이 증발했으며, 투자자들은 회사의 증가하는 자본 지출에 대한 투자 수익률에 의문을 제기했다. 메타는 2025년 자본 지출 가이던스를 700억 달러에서 720억 달러 사이로 상향 조정했으며, 2026년에는 “현저히 더 큰” 지출을 예상하고 있다.시장의 혼란에도 불구하고, 월스트리트 애널리스트들은 비교적 확고한 목표 주가를 유지했으며, 컨센서스 전망은 30% 이상의 상승 잠재력을 시사했다. 회사는 실적 발표에서 자사의 전략을 옹호했으며, 저커버그는 “가장 낙관적인 경우에 대비할 수 있도록 공격적으로 용량을 선제적으로 확보하는 것이 올바른 전략”이라고 말했다.주요 프로젝트 및 자금 조달Meta는 최근 루이지애나주 하이페리온 데이터 센터 건설 자금 조달을 위해 Blue Owl Capital과 기록적인 270억 달러 규모의 금융 거래를 체결했으며, 이는 전 세계적으로 가장 큰 프로젝트입니다. 400만 평방피트 이상의 면적에 최대 5기가와트의 전력을 사용할 것으로 예상되는 이 시설은 2030년까지 완공될 예정입니다. 계약에 따라 Blue Owl은 80%의 지분을 보유하고 Meta는 20%의 소유권과 운영 통제권을 유지합니다.10월에 Meta는 텍사스주 엘패소에 15억 달러를 투자하여 데이터 센터를 건설할 계획을 발표했으며, 이는 전 세계적으로 29번째 시설이자 텍사스주에서는 세 번째 시설입니다. 120만 평방피트 규모의 캠퍼스는 1기가와트까지 확장 가능하며, 건설 인력 1,800명과 정규직 운영 인력 100명을 포함하여 거의 2,000개의 일자리를 창출할 것으로 예상됩니다.
66 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)OpenAI CEO 샘 올트먼은 이번 주 회사가 클라우드 컴퓨팅 시장에 진출할 의향을 시사했으며, 이는 인공지능 선도 기업을 가장 가까운 파트너들과 직접 경쟁하게 만들 수 있는 극적인 전략적 전환을 의미합니다.11월 6일 X에 올린 게시물에서 올트먼은 OpenAI가 “다른 회사들(그리고 사람들)에게 컴퓨팅 용량을 보다 직접적으로 판매하는 방법을 모색하고 있다”고 밝혔으며, 회사는 “세상이 많은 ‘AI 클라우드’를 필요로 할 것이라고 확신하며, 이를 제공하게 되어 기쁘다”고 덧붙였습니다. 이번 발표는 OpenAI가 향후 8년간 체결한 약 1조 4천억 달러 규모의 인프라 약정에 대한 자금 조달 방안을 모색하는 가운데 나왔습니다.소비자에서 공급자로이번 움직임은 OpenAI를 세계 최대 클라우드 서비스 소비자 중 하나에서 Amazon Web Services, Microsoft Azure, 그리고 Google Cloud Platform과 경쟁하는 제공업체로 변모시킬 것입니다. 이들은 전 세계 엔터프라이즈 클라우드 인프라 시장의 약 62%를 장악하고 있습니다. AWS는 약 29%의 시장 점유율을 보유하고 있으며, Microsoft가 20%, Google Cloud가 13%로 뒤를 잇고 있습니다.OpenAI가 클라우드 제공업체가 될 가능성은 CFO Sarah Friar의 이전 발언으로 신빙성을 얻었습니다. 그녀는 9월에 클라우드 파트너들이 “우리 비용으로 학습하고 있다”고 말했습니다. “우리가 파트너들이 AI 데이터 센터를 설계하도록 돕고, 그들이 학습하고, 우리가 그 데이터 센터에서 훈련하거나 추론할 때조차… 그들은, 저는 때때로 이것을 우리 비용으로 조금 학습하고 있다고 생각합니다”라고 Friar는 Goldman Sachs 컨퍼런스에서 말했습니다.10월에 발표된 재구성된 Microsoft 파트너십에 따르면, OpenAI의 무상태 API 요청은 독립적인 전문가 패널이 인공일반지능이 달성되었다고 판단하지 않는 한 2030년까지 Azure에서만 독점적으로 유지됩니다. 그러나 ChatGPT를 포함한 다른 OpenAI 제품은 이제 여러 플랫폼에 배포될 수 있습니다. OpenAI는 추가로 2,500억 달러 규모의 Azure 서비스를 구매하기로 약속했지만, Microsoft는 더 이상 OpenAI의 컴퓨팅 제공업체로서 우선협상권을 보유하지 않습니다.재정적 압박이 전략을 주도하다OpenAI는 2025년 말까지 200억 달러 이상의 연간 매출을 달성할 것으로 예상하며, 2030년까지 수천억 달러 규모로 성장할 것으로 전망하고 있습니다. 이 회사는 최근 Amazon과 380억 달러 규모의 7년 클라우드 계약을 체결했으며, 이는 Microsoft와의 계약 재협상 이후 첫 번째 주요 인프라 파트너십입니다. OpenAI는 또한 Oracle(3,000억 달러), Nvidia(1,000억 달러), AMD(900억 달러)와 대규모 계약을 확보했습니다.클라우드 제공업체가 되는 것은 OpenAI가 대규모 인프라 투자를 수익화하는 동시에 궁극적으로 경쟁자가 될 수 있는 파트너에 대한 의존도를 줄이는 데 도움이 될 수 있습니다. 대규모로 운영될 경우, 클라우드 비즈니스는 상당한 반복 수익을 창출합니다. AWS만 해도 연간 1,320억 달러의 매출을 기록하고 있습니다.
68 조회
0 추천
11.08 등록
(퍼플렉시티가 정리한 기사)중국 전기차 제조업체 샤오펑(Xpeng)은 11월 5일 광저우에서 열린 AI 데이 행사에서 차세대 아이언(Iron) 휴머노이드 로봇을 공개했는데, 그 움직임이 너무나 사람처럼 자연스러워 회사는 무대 위에서 로봇을 절개하여 내부에 사람이 숨어있지 않다는 것을 증명해야 했다.이 시연은 아이언의 우아한 런웨이 데뷔 이후 소셜 미디어에서 회의론이 폭발한 후에 이루어졌다. 허 샤오펑(He Xiaopeng) CEO에 따르면, “테슬라의 로봇도 이런 건 못 하는데 샤오펑이 어떻게 이걸 만들 수 있겠어?“라는 댓글이 입소문을 탔다고 한다. 회사는 다음 날 로봇의 전원을 켜고 다리 커버를 절개하여 금속 관절, 액추에이터, 배선을 포함한 기계 부품들을 노출시키며 기계가 계속 걷는 모습을 보여주는 것으로 대응했다.고급 아키텍처가 사실적인 움직임을 구현합니다Iron은 각 손에 22개씩 포함하여 82개의 자유도를 갖추고 있어, 전례 없는 정교함으로 구부리고, 제스처를 취하고, 물체를 다룰 수 있습니다. 이 로봇은 키가 5피트 10인치이고 무게는 154파운드이며, 인간형 척추, 생체 모방 근육, 그리고 완전히 덮인 합성 피부를 특징으로 하는 “내부에서 탄생한” 디자인 콘셉트를 가지고 있습니다.이 기계는 초당 2,250조 번의 연산을 수행하는 세 개의 맞춤형 Turing AI 칩으로 구동되며, Xpeng에 따르면 “현재까지 개발된 가장 강력한 인간형 로봇 중 하나”입니다. 이 로봇은 회사의 Vision-Language-Action 2.0 모델을 실행하며, 이는 언어 번역 없이 시각적 입력을 물리적 동작으로 직접 처리합니다.Iron은 또한 전고체 배터리를 사용하는 최초의 인간형 로봇으로, 기존 리튬이온 배터리에 비해 더 높은 에너지 밀도와 향상된 안전성을 제공합니다. Notebookcheck에 따르면, 전고체 배터리는 킬로그램당 500와트시 이상에 도달할 수 있으며, 이는 동일한 공간에서 테슬라의 Optimus 로봇 배터리 용량의 두 배입니다.2026년 상용화 배치 예정Xpeng은 2026년 말까지 대량 생산을 목표로 하고 있으며, 초기 배치는 가정이 아닌 상업 환경에서 이루어질 예정입니다. “미래에는 로봇이 삶의 동반자이자 동료가 될 것입니다”라고 He는 프레젠테이션에서 말하며, 사용자가 결국 체형, 머리 길이, 의복을 맞춤 설정할 수 있게 될 것이라고 덧붙였습니다.로봇은 먼저 Xpeng 소매점, 사무실, 쇼룸에서 안내원과 판매 보조원 역할을 하기 위해 등장할 것입니다. 중국 철강 생산업체 Baoshan Iron & Steel은 이미 산업 모니터링 애플리케이션을 위한 로봇 테스트의 초기 파트너로 계약했습니다. 개발을 가속화하기 위해 Xpeng은 전 세계 개발자들이 플랫폼용 애플리케이션을 구축할 수 있도록 SDK를 출시할 것이라고 발표했습니다.이번 공개로 Xpeng은 급속히 확장되는 휴머노이드 로봇 시장에서 Tesla의 Optimus 프로그램과 직접 경쟁하는 위치에 서게 되었으며, Goldman Sachs는 이 시장이 2035년까지 380억 달러에 이를 것으로 예상합니다. Xpeng 주가는 AI Day 행사 이후 11월 7일 10.8% 상승한 24.15달러를 기록했습니다.
62 조회
0 추천
11.08 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입