AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,118 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 176 페이지
(퍼플렉시티가정리한기사)OpenAI는Sora2텍스트-투-비디오플랫폼을통해AI생성비디오에사용할마스코트와사랑받는캐릭터의라이선스를확보하기위해주요브랜드들에적극적으로접근하고있으며,이는엔터테인먼트기업들로부터증가하는저작권압력을헤쳐나가면서합법적인브랜드파트너십으로나아가는중요한전환점을나타냅니다.이러한접촉은Sora2가9월말출시되었을때기본적으로사용자가저작권이있는캐릭터가등장하는비디오를생성할수있도록허용하는옵트아웃시스템으로즉각적인반발에직면한후적절한라이선스프레임워크를구축하려는OpenAI의시도를나타냅니다.출시72시간내에회사는할리우드스튜디오,탤런트에이전시및콘텐츠제작자들의비판에따라방향을전환하여옵트인모델로전환했습니다.​수익분배모델이형성되다OpenAICEO샘알트먼은AI생성콘텐츠에자신의캐릭터사용을허용하는저작권보유자에게보상하는수익분배모델계획을발표했습니다.이수익화전략은사용자들이예상보다높은비율로비디오를생성하면서회사자원에재정적압박을가하고있는상황에서나온것입니다.​알트먼은블로그게시물에서"이새로운종류의'인터랙티브팬픽션'에대해매우흥분하고있는많은권리보유자들로부터연락을받고있으며,이들은이새로운형태의참여가자신들에게많은가치를가져다줄것이라고생각합니다"라고밝혔습니다.​수익분배체계는Sora의"캐릭터카메오"기능을통해구현될예정이며,이기능은사용자가사람,반려동물,물체또는독창적인페르소나의업로드된비디오로부터재사용가능한아바타를생성할수있도록합니다.권리보유자들은사용을완전히금지하는것을포함하여자신의캐릭터가어떻게사용되는지지정할수있습니다.​엔터테인먼트업계의반발이심화되다주요엔터테인먼트기업들은OpenAI의접근방식에강력히반발해왔습니다.미국영화협회(MotionPictureAssociation)는OpenAI에게플랫폼에서광범위한저작권침해로묘사되는문제를해결하기위한"즉각적인조치"를취할것을촉구했습니다.이문제에정통한소식통에따르면,디즈니는이미Sora2에서자사콘텐츠사용을거부했습니다.​이러한반발은국제적으로확대되어,스튜디오지브리와스퀘어에닉스를포함한회원사들로구성된일본업계단체CODA가OpenAI에게Sora2훈련에자사콘텐츠사용을중단할것을요구하는서한을발송했습니다.이논란은앱출시후소셜미디어전반에확산된피카츄,스폰지밥,마리오와같은캐릭터가등장하는AI생성동영상으로인해더욱가속화되었습니다.​이러한법적문제는훈련데이터셋에서저작권이있는자료사용을둘러싼AI업계의광범위한긴장을반영합니다.OpenAI는조지R.R.마틴과마이클샤본을포함한작가들로부터여러소송에직면해있으며,최근연방판사가집단소송을진행하도록허용했습니다.
1150 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)CelonisSE는연례Celosphere2025컨퍼런스에서주요AI기반플랫폼업데이트를발표했으며,120개의"ValueChampions"가각각1,000만달러이상의비즈니스가치를실현하여프로세스인텔리전스로구동되는엔터프라이즈AI를통해총81억달러의가치를창출한방법을선보였습니다.​뮌헨에본사를둔이프로세스인텔리전스회사는3,500명이상의비즈니스및기술리더들이모인이틀간의컨퍼런스에서플랫폼에대한중요한개선사항을공개했습니다.이번발표는Celonis를AI기반운영의기반으로포지셔닝하며,AI투자에대한수익달성에어려움을겪고있는조직들의광범위한과제를해결합니다.​플랫폼혁신이AI기반운영을가능하게합니다Celonis는회사가"AI기반컴포저블엔터프라이즈"라고부르는것을구동하기위해설계된여러주요기술혁신을도입했습니다.향상된프로세스인텔리전스플랫폼은이제PerformanceSpectrum,InstanceExplorer,Object-CentricPerformance앱을포함한객체중심프로세스마이닝(OCPM)기능을갖추고있으며,이는장애가자주발생하는중요한프로세스교차점에서문제를식별하는데도움을줍니다.​회사는프로세스인텔리전스를위해특별히구축된세계최초의ModelContextProtocol(MCP)서버를출시했으며,이는효과적인의사결정에필요한동적운영컨텍스트를AI에이전트에제공하도록설계되었습니다.또한OrchestrationEngine은핵심플랫폼기능으로서사람및시스템과함께AI에이전트를조정하도록확장되었습니다.​Celonis의최고제품책임자인DanielBrown은에이전틱AI에필요한구조화된접근방식을강조했습니다:"AI를진정으로운영화하려면올바른사용사례를식별하고,비즈니스프로세스를재설계하며,사람과기존시스템과함께에이전트를조정해야합니다".​전략적파트너십및고객성공사례주요하이라이트는프로세스인텔리전스를통해AI를운영화하기위한Databricks와의파트너십발표였습니다.이통합은DeltaSharing을활용하여CelonisProcessIntelligencePlatform과DatabricksDataIntelligencePlatform을직접연결하며,데이터복제없이양방향데이터흐름을가능하게합니다.​Mercedes-BenzGroupAG는Celonis와의협력을통해30개이상의글로벌생산공장에서정시배송개선과의사결정가속화라는혁신적인성과를선보였습니다.이자동차제조사는배송예측을위한AI코파일럿,서비스병목현상식별을위한프로세스인텔리전스,품질관리를위한AI기반이상탐지를활용하고있습니다.​컨퍼런스에서강조된다른주목할만한고객성과로는Celonis를기반으로한AstraZeneca의OpenAI와의파트너십,오클라호마주의1천만달러가치창출,그리고Cosentino가AI기반신용관리를통해차단된판매주문처리를최대5배가속화한사례등이있습니다.
1141 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)MicronTechnology는2025년11월3일$237.62의사상최고가를기록했으며,이는인공지능수요가반도체부문전반에걸쳐전례없는성장을이끌면서메모리칩거대기업에게중요한이정표가되었습니다.주가는$234.70에마감되어일일4.88%의상승률을기록했으며,연초대비179.66%의급등을보인놀라운한해를마무리했습니다.​보이시(Boise)에본사를둔이회사는지난1년간125.31%의수익률과6개월간177.65%의인상적인상승률로투자자들에게놀라운수익을제공했습니다.이러한성과로Micron의시가총액은약2,630억달러에달하며,AI혁명의주요수혜자로서의입지를확고히했습니다.​AI메모리부족이가격결정력을견인하다이랠리는AI애플리케이션에필수적인고대역폭메모리(HBM)칩의극심한부족으로인해촉발되었으며,마이크론은2025년HBM전체공급량을완판했습니다.이회사는최근이전모델보다50%더많은용량을제공하면서전력효율을20%이상향상시킨고급192GBSOCAMM2메모리모듈의고객샘플링을발표했습니다.​업계역학은메모리제조업체들에게완벽한폭풍을만들어냈습니다.시티그룹애널리스트들에따르면,DRAM가격은3분기대비4분기에25%상승할것으로예상되며,이는1990년대이후분기대비가장높은증가율입니다.급증하는AI수요와제한된공급의결합으로인해DRAM현물가격은지난2주동안거의50%상승했습니다.​월스트리트,메모리랠리뒤에서결집이러한낙관론은애널리스트들의등급상향조정과목표주가인상으로이어졌습니다.시티그룹의애널리스트크리스토퍼대널리는전례없는DRAM가격환경을언급하며매수등급을유지하면서목표주가를240달러에서275달러로상향조정했습니다.UBS의애널리스트티모시아르쿠리는악화되는메모리부족속에서마이크론의2026년주당순이익이30달러에근접할수있다고전망하며목표주가를225달러에서245달러로높였습니다.​이러한강세심리는개별등급상향을넘어확장되고있으며,경쟁사인SK하이닉스는분기사상최대실적을발표하고DRAM,NAND,HBM생산능력이2026년까지완전히예약되었음을확인했습니다.SK하이닉스경영진은HBM공급이2027년까지여전히타이트할것이라고밝혀현재메모리"슈퍼사이클"의지속적인성격을강조했습니다.
1268 조회
0 추천
2025.11.05 등록
(퍼플렉시티가정리한기사)알리바바의Qwen3-MaxAI모델이AlphaArena암호화폐거래경쟁첫시즌에서우승을차지했으며,2025년11월3일에종료된2주간의자율거래동안10,000달러투자에대해22.32%의수익률을기록했습니다.미국연구기관Nof1이주최한이경쟁은Hyperliquid탈중앙화거래소의실제시장조건에서6개의주요AI모델을서로대결시켰습니다.중국의Qwen3-Max와DeepSeekV3.1Chat만이수익을올렸으며,미국에서개발된4개모델은모두큰손실을기록했습니다.​중국모델들이경쟁을장악하다DeepSeek의V3.1Chat모델은4.89%의수익률로2위를차지했으며,초기투자금$10,000에서$10,489로마감했습니다.서구경쟁사들과의극명한대조가두드러졌습니다:OpenAI의GPT-5는최악의성과를보이며자본의62.66%를잃어약$3,733로마감했습니다.​GoogleDeepMind의Gemini2.5Pro,Anthropic의Claude4.5Sonnet,그리고ElonMusk의xAIGrok4역시상당한손실을기록했으며,Gemini는초기자본의약57%를잃었습니다.​"Qwen3MAX가막판에앞서나가우승을확보했습니다"라고Nof1설립자JayA.Zhang이소셜미디어플랫폼X에서발표했습니다.이대회는10월18일부터11월3일까지진행되었으며,각AI모델은인간의개입없이자율적으로암호화폐무기한계약을거래했습니다.​시장변동성이AI거래기술을시험하다이대회는암호화폐시장의변동성이큰시기에진행되었으며,비트코인은약104,000달러에서108,000달러사이에서거래되었고,이달초더높은수준에서하락한상태였다.AI모델들은오직정량적시장데이터만제공받았고뉴스나외부정보에대한접근은차단되어,순수하게수치분석만을기반으로시장상황을헤쳐나가는능력을시험받았다.​Qwen3-Max는소식통들이규율있는"올인BTC전략"이라고묘사한방식으로두각을나타냈으며,평균가격105,800달러에비트코인을보유하면서시장변동성동안하락폭을최소화했다.한편,DeepSeek는도지코인에대한숏포지션으로헤지를시도했지만,결국큰롱익스포저로인해수익이감소했다.​Nof1은블로그게시물에서초기결과가"운의결과일수있다"고경고하며,향후시즌에서는대회에"더많은통계적엄격성"을도입할것이라고언급했다.이연구기관은이실험이전통적인벤치마크가아닌"결과가중요한현실적인환경"에서AI모델을테스트하는것을목표로한다고강조했다.
1138 조회
0 추천
2025.11.05 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입