AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,125 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 128 페이지
(퍼플렉시티가 정리한 기사)CNBC에 따르면 목요일 관계자들을 인용하여, 일론 머스크의 인공지능 회사 xAI가 시리즈 E 펀딩 라운드에서 150억 달러를 유치하여 기업가치가 2000억 달러에 달했다고 보도했다. 이번 펀딩 라운드는 9월에 보고된 100억 달러 유치에서 50억 달러 증가한 것으로, xAI를 치열해지는 AI 경쟁에서 가장 높은 자본력을 갖춘 기업 중 하나로 자리매김하게 했다.이 자본은 주로 xAI의 Grok 챗봇을 구동하는 대규모 언어 모델 훈련에 필수적인 특수 칩인 그래픽 처리 장치 구매에 사용될 예정이다. 로이터가 이번 자금 유치에 대한 논평을 요청했을 때, xAI는 “레거시 미디어의 거짓말(Legacy Media Lies)“이라는 자동 응답으로 보이는 답변을 보냈다.AI 펀딩 열풍 심화이번 거래는 AI 부문 전반에 걸친 치솟는 기업가치 평가 속에서 이루어졌습니다. OpenAI는 10월에 5,000억 달러의 기업가치로 2차 주식 매각을 완료하여 세계에서 가장 가치 있는 비상장 기업이 되었습니다. Anthropic은 9월에 1,830억 달러의 기업가치로 130억 달러를 조달하여 3월 대비 기업가치가 거의 3배 증가했습니다.xAI의 2,000억 달러 기업가치는 2024년 말 500억 달러를 크게 상회하는 수치입니다. 당시 xAI는 Sequoia Capital, Andreessen Horowitz, 카타르 투자청을 포함한 투자자들로부터 60억 달러를 조달했습니다. 자금 조달 데이터에 따르면, 이 회사는 2023년 설립 이후 현재까지 270억 달러 이상을 조달했습니다.테슬라 연결 및 인프라 확장이번 자금 조달은 최근 테슬라 주주들이 전기차 제조업체의 xAI 투자를 승인하는 제안에 대해 투표한 직후에 이루어졌습니다. 테슬라 법률 고문 브랜든 에어하트(Brandon Ehrhart)는 “반대표보다 찬성표가 더 많았다”고 확인했지만, 상당한 기권표가 있었다고 언급하며 회사가 “다음 단계를 고려 중”이라고 말했습니다. 이 자문 투표는 머스크의 AI 벤처와 그의 다른 기술 회사들 간의 긴밀한 통합을 위한 길을 열 수 있습니다.xAI는 OpenAI의 ChatGPT 및 Anthropic의 Claude와 경쟁하기 위해 데이터 센터 용량을 빠르게 확장하고 있습니다. 이 회사는 멤피스의 시설에서 200,000개의 엔비디아 프로세서를 갖춘 세계 최대 AI 슈퍼컴퓨터라고 주장하는 콜로서스(Colossus)를 운영하고 있습니다. 보도에 따르면, 두 번째 데이터 센터인 콜로서스 2(Colossus 2)가 건설 중이며 추가로 300,000개의 GPU를 수용할 예정입니다.
1112 조회
0 추천
2025.11.14 등록
(퍼플렉시티가 정리한 기사)Palantir CEO 알렉스 카프는 목요일 인공지능 투자에 대해 강력한 경고를 전달하며, Yahoo Finance의 Invest 이벤트 참석자들에게 많은 AI 프로젝트가 “막대한 비용을 정당화할 만큼 충분한 가치를 창출하지 못할 수 있다”고 말했다. 이러한 발언은 이벤트에서 인용된 Morgan Stanley 추정치에 따르면 거대 기술 기업들이 2025년 AI 인프라에 4,700억 달러를 지출할 것으로 예상되는 가운데 나왔다.Yahoo Finance 스튜디오에서 발언한 카프는 두 가지 서로 다른 AI 시장을 제시했다: 하나는 매출이나 이익률을 움직이지 못하는 기본 애플리케이션에 초점을 맞춘 시장이고, 다른 하나는 측정 가능한 전장 또는 비즈니스 결과를 제공할 수 있는 부문이다. “정보에 입각한 관찰자라면 AI 시장이 상당하긴 하지만, 대규모 언어 모델이나 그 배포에 대한 투자를 정당화할 만큼 충분한 가치를 창출하지 못할 수 있다고 주장할 수 있습니다”라고 그는 말했다. 방산 기술 CEO는 Palantir가 기업들이 “현재의 운영 구조를 유지하면서 가치를 실현할 수 있는” 결과 중심 부문에서 운영되고 있다고 강조했다.명망 있는 학위가 쓸모없게 되다이번 주에 역시 헤드라인을 장식한 Axios와의 별도 인터뷰에서 Karp는 일반적인 지식을 가진 엘리트 대학 졸업생들이 AI 시대에 “운명이 끝났다”고 선언했다. “만약 당신이 예일대에 갔을 법한 사람, 전통적으로 높은 IQ를 가졌지만 일반화된 지식을 가지고 있고 구체적이지 않다면, 당신은 망했습니다”라고 Karp는 Axios에 말했다. 그는 직업 훈련을 받은 고등학교 졸업생과 같이 특정 분야의 전문 지식을 가진 근로자들이 AI가 일반 지식을 상품화함에 따라 아이비리그 졸업생들보다 “훨씬 더 많은 돈을 벌 것”이라고 주장했다.이러한 발언은 4월에 시작된 Palantir의 Meritocracy Fellowship과 일치하는데, 이 프로그램은 대학 대신 최근 고등학교 졸업생 22명을 4개월 유급 프로그램에 채용했다. 이 프로그램은 아이비리그 수준의 시험 점수를 요구했으며 500명 이상의 지원자를 유치했고, 펠로우들은 현재 이번 달에 프로그램을 마무리하고 있다. 우수한 성과를 낸 사람들은 현재 약 4,390억 달러의 가치를 지닌 회사의 정규직 포지션 면접을 보게 될 것이다.시장 우려 심화이러한 경고는 Palantir의 주가가 2025년에 141% 급등한 가운데 나온 것이지만, 강력한 실적에도 불구하고 최근 실적 발표 이후 주가는 하락했습니다. Meta [ +0.14%], Microsoft, Amazon, Alphabet을 포함한 하이퍼스케일러들은 2026년에 6,200억 달러를 투자할 것으로 예상되며, 이는 AI 지출이 충분한 수익을 창출할 수 있을지에 대한 논쟁을 불러일으키고 있습니다. Michael Burry를 포함한 공매도 투자자들과 저명한 CEO들은 주식 시장이 버블 국면에 있을 수 있다고 경고했습니다.
1150 조회
0 추천
2025.11.14 등록
(퍼플렉시티가 정리한 기사)Google은 목요일 AI 기반 연구 보조 도구인 NotebookLM의 업데이트를 발표하며 Deep Research 기능과 Microsoft [MSFT -1.54%] Word 문서 및 Google Sheets를 포함한 추가 파일 형식 지원을 도입했습니다.Deep Research 기능은 수백 개의 웹사이트를 탐색하고 몇 분 내에 출처가 명확한 상세한 보고서를 생성함으로써 복잡한 온라인 조사를 자동화합니다. 표준 검색 도구와 달리 Deep Research는 다단계 연구 계획을 수립하고 정보를 수집하면서 검색을 정제한 다음, 사용자가 노트북에 직접 추가할 수 있는 체계적인 보고서로 결과를 종합합니다.사용자는 두 가지 연구 모드 중 선택할 수 있습니다: 정보를 빠르게 스캔하는 빠른 검색을 위한 Fast Research와 사용자가 다른 작업을 계속하는 동안 백그라운드에서 실행되는 포괄적인 브리핑을 위한 Deep Research입니다. Google의 블로그 게시물에 따르면, 보고서는 시작에 불과하며 사용자는 보고서와 출처를 모두 노트북에 추가할 수 있고 Deep Research가 작동하는 동안 다른 출처를 계속 추가할 수 있습니다.확장된 파일 형식 호환성이번 업데이트는 Google Sheets 지원을 추가하여 사용자가 스프레드시트에서 요약을 요청하거나 통계를 분석할 수 있도록 합니다. NotebookLM은 이제 Microsoft Word 문서(.docx)를 허용하여 수동 파일 변환의 필요성을 제거합니다. 사용자는 또한 복사-붙여넣기를 통해 Google Drive 파일을 URL로 추가할 수 있으며, 쉼표로 구분된 여러 링크를 지원합니다. Google Drive에 저장된 PDF는 이제 다운로드 및 재업로드 없이 직접 추가할 수 있습니다.이미지는 향후 몇 주에 걸쳐 제공될 예정이며, 사용자가 손으로 쓴 메모나 문서의 사진을 업로드할 수 있게 됩니다.맥락과 경쟁NotebookLM은 2023년 말에 출시되어 2025년 내내 정기적인 업데이트를 받았습니다. 10월에 Google은 NotebookLM의 채팅 기능을 100만 토큰 컨텍스트 윈도우와 6배 더 긴 대화 메모리로 확장했습니다. 이 플랫폼은 또한 올해 초 비디오 개요를 도입했으며 5월에 Android 및 iOS용 모바일 앱을 출시했습니다.Deep Research 기능은 NotebookLM을 경쟁사의 유사한 도구들과 나란히 위치시키지만, Google은 연구가 백그라운드에서 실행되는 동안 사용자가 계속해서 소스를 추가할 수 있도록 함으로써 자사 제품을 차별화합니다. NotebookLM은 복잡한 다단계 질문에 대한 향상된 추론 기능을 제공하는 Gemini 2.5 Flash로 구동됩니다.Google에 따르면 모든 기능은 일주일 내에 사용자에게 제공될 예정입니다.
1121 조회
0 추천
2025.11.14 등록
(퍼플렉시티가 정리한 기사)AI 코딩 어시스턴트 Cursor는 목요일 23억 달러 규모의 투자 유치에 성공하며, 이전 투자 라운드로부터 불과 5개월 만에 기업 가치가 3배 증가한 293억 달러를 기록했습니다. 샌프란시스코에 본사를 둔 이 스타트업은 공식 명칭 Anysphere Inc.로, 인공지능 기반 개발자 도구에 대한 투자자들의 엄청난 신뢰를 나타내며 AI 역사상 가장 큰 벤처 캐피탈 투자 라운드 중 하나를 유치했습니다.월스트리트 저널의 보도에 따르면, 이번 투자 라운드는 Accel과 Coatue가 공동 주도했으며, Nvidia와 Google이 전략적으로 참여했습니다. 기존 투자자인 Thrive Capital과 DST Global도 이번 라운드에 합류했습니다. 회사의 기업 가치는 약 25억 달러로 평가받았던 1월 이후 거의 12배 급증했습니다.전략적 투자자들이 시장 변화를 예고하다Nvidia와 Google이 투자자로 참여한 것은 AI 개발 도구의 전략적 중요성을 강조합니다. Nvidia는 Cursor의 기업 고객이자 칩 공급업체로서 역할을 하고 있으며, Google은 플랫폼을 구동하는 AI 모델을 제공합니다. CEO Michael Truell은 월스트리트 저널에 이들 기업을 “파트너십을 심화하기 위해” 초청했다고 밝혔습니다.이번 투자 라운드는 AI 코딩 시장의 경쟁이 심화되는 가운데 이루어졌습니다. Microsoft가 소유한 GitHub Copilot은 2025년 7월 2천만 명의 사용자를 돌파했으며, Fortune 100 기업의 90% 이상이 이 도구를 사용하고 있다고 보고했습니다. 한편, OpenAI와 Anthropic은 자체 AI 코딩 제품을 강화하고 있어, 개발자 도구 부문을 인공지능 분야에서 가장 경쟁이 치열한 전장 중 하나로 만들고 있습니다.독점 AI 모델에 베팅하기Cursor는 지난 10월 출시한 자체 AI 모델인 Composer 개발을 위해 자금을 투입할 계획이다. 현재 이 회사는 코딩 어시스턴트 구동을 위해 Google, OpenAI, Anthropic의 외부 모델에 의존하고 있지만, Composer는 이러한 공급업체로부터의 독립을 위한 시도를 의미한다.Cursor는 2025년 6월 기준 연간 반복 수익 5억 달러를 돌파했으며, 이는 4월의 3억 달러에서 증가한 수치이고, Fortune 500 기업 중 절반 이상이 사용하고 있다. 2022년 MIT 졸업생 4명—Michael Truell, Sualeh Asif, Arvid Lunnemark, Aman Sanger—이 설립한 이 회사는 개발자 도구 분야에서 가장 빠르게 성장하는 스타트업으로 부상했다. AI 코딩 도구 시장은 연평균 25.62%의 성장률로 2032년까지 373억 4천만 달러 규모에 달할 것으로 예상된다.
1096 조회
0 추천
2025.11.14 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입