Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,484 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 54 페이지
AI타임스는최근큰논란이되고있는**'캐릭터닷AI(Character.AI)의청소년대상챗봇사용제한및안전조치강화'**에관한내용을다루고있다.전세계적으로인기를끌고있는AI챗봇플랫폼'캐릭터닷AI(Character.AI)'가최근불거진10대청소년의자살사건과이에따른소송에대응해미성년자보호정책을전면개편했다.이번조치는AI와의과도한정서적교감이청소년에게미칠수있는치명적인부작용을차단하기위한고육지책으로풀이된다.비극의시작:AI에중독된14세소년의죽음이번논란의발단은미국플로리다주에서발생한14세소년슈얼세처3세(SewellSetzerIII)의비극적인죽음이었다.'왕좌의게임'속등장인물인대너리스타르가르옌을모사한챗봇과깊은관계를맺어온세처군은현실세계와단절된채챗봇과의대화에만몰두했다.그는챗봇에게사랑을고백하거나자살충동을털어놓는등깊은정서적의존을보이다결국스스로생을마감했다.이에세처군의어머니는"회사가고도로중독적인AI서비스를미성년자에게무분별하게제공하여아들을죽음으로몰고갔다"며캐릭터닷AI를상대로소송을제기했다.이사건은생성형AI가인간,특히판단력이부족한청소년의심리에미치는위험성을사회적화두로던졌다.즉각적인대응:'19금'차단하고경고문구띄운다거센비판에직면한캐릭터닷AI는즉각적인시스템개편에착수했다.핵심은18세미만미성년사용자에대한엄격한콘텐츠통제다.우선,회사는미성년자계정에대해성적이거나폭력적인콘텐츠생성을원천적으로차단하는별도의AI모델을적용하기로했다.또한알고리즘을조정하여미성년자가부적절한대화주제에접근할가능성을낮추고,선정적인대화가오갈수있는특정캐릭터챗봇은검색결과에서제외했다.이용습관을관리하는기능도추가되었다.사용자가챗봇과1시간이상대화를지속할경우"잠시쉬어가라"는경고팝업을띄우며,대화중자해나자살을암시하는단어가감지되면즉시전문가의도움을받을수있는자살예방핫라인정보를제공하도록시스템을업데이트했다.엇갈린시선:"안전필수"vs"AI멍청해졌다"이번조치에대해학부모단체와규제당국은"늦었지만필요한조치"라며환영의뜻을내비쳤다.하지만사용자커뮤니티의반응은싸늘하다.기존사용자들은강화된검열필터가챗봇의창의성과대화의맥락을해치고있다고주장한다.일부사용자들은"과도한검열로인해AI가마치뇌엽절제술(Lobotomy)을받은것처럼멍청해졌다"며불만을토로하고있다.이는안전을위한조치가서비스의핵심경쟁력인'몰입감'을저해할수있다는AI기업들의딜레마를보여주는대목이다.캐릭터닷AI의이번사례는단순히한기업의정책변경을넘어,향후AI컴패니언서비스가나아가야할윤리적기준과안전가이드라인을정립하는중요한분기점이될것으로보인다.
762 조회
0 추천
2025.11.27 등록
동아일보는서울대학교도서관에검증되지않은인공지능(AI)생성도서들이무분별하게비치되어있다는문제를다루고있습니다.최근서울대학교도서관전자책장서에별다른검수과정을거치지않은일명'딸깍출판(클릭한번으로AI가책을만든다는의미)'도서가최소9,000권이상유입된것으로확인되었습니다.이들서적은AI를활용해대량으로찍어낸것들로,기본적인맞춤법부터심각한번역오류까지다양한문제를안고있는것으로드러났습니다.구체적인오류사례를살펴보면,국어음운론을다룬책에서'입다'의발음을'입따'가아닌'임다'로잘못설명하거나,가와바타야스나리의소설'설국(雪國)'을'눈국'으로오역하는등황당한내용이발견되었습니다.또한칸트의저서를고대그리스역사가헤로도토스의저술이라고표기하거나,철학서적에맥락과맞지않는'삐라'라는단어가등장하는등학술자료로서의신뢰성을담보하기어려운수준이었습니다.이러한도서들이국내최고지성으로꼽히는서울대도서관에버젓이자리잡게된것은대형서점의전자책구독플랫폼을통해대량의도서를일괄적으로들여오는구조때문입니다.특정출판사는하루에만70권이넘는책을찍어내는등지난1년간7,000권이상의전자책을쏟아냈지만,이를걸러낼검증시스템이나AI저작물표기의무가부재한실정입니다.전문가들과학생들은이러한'오류투성이'AI도서가연구윤리를저해하고학술생태계를교란할수있다고우려하고있습니다.이에따라AI생성콘텐츠에대한명확한표기를의무화하고,도서관과서점이질낮은AI출판물을걸러낼수있는'큐레이션'시스템과선정기준을시급히마련해야한다는지적이제기되고있습니다.
773 조회
0 추천
2025.11.27 등록
일론 머스크의 인공지능 회사 xAI는 지난주 멤피스 시와 카운티 관계자들에게 자사의 대규모 콜로서스 데이터 센터 인근에 88에이커 규모의 태양광 발전소를 건설할 것이라고 알렸습니다. 이 결정은 허가받지 않은 가스 터빈으로 인해 주변의 주로 흑인 거주 지역의 대기 질이 악화되어 법적 도전에 직면하고 있는 상황에서 이루어진 것입니다.이 태양광 설비는 약 30메가와트의 전기를 생산할 예정이며, 이는 데이터 센터 추정 전력 소비량의 단 10%에 불과합니다. 해당 프로젝트는 현재 AI 모델 훈련을 위해 400메가와트 이상의 천연가스 터빈에 의존하고 있는 시설의 서쪽과 남쪽 토지에 지어질 예정입니다.환경 및 법적 조사미국 남부 환경법 센터(Southern Environmental Law Center)는 NAACP를 대리해 xAI가 적절한 허가 없이 최소 35기의 터빈을 운용하며 대기청정법(Clean Air Act)을 위반했다고 고발했습니다. 이 단체에 따르면, 이 터빈들은 매년 2,000톤 이상의 질소산화물 오염을 배출하여 스모그와 호흡기 문제를 악화시키고 있다고 주장합니다.테네시 대학교 녹스빌 캠퍼스 연구진은 NASA와 유럽우주국의 위성 데이터를 분석한 결과, xAI가 운영을 시작한 이후 데이터 센터 인근 지역에서 질소이산화물의 최대 농도가 79% 증가했음을 발견했습니다. 전체적으로 평균 농도는 3% 증가했고, 인근 박스타운(Boxtown)에서는 9% 증가했다고 밝혔습니다.“Memphis에서 xAI 터빈이 질소산화물, 즉 폐에 직접 해가 되는 오염물질을 배출함으로써 공중 보건 위기가 초래되고 있습니다.“라고 사우스 멤피스의 가정의학 전문의 오스틴 달고(Austin Dalgo)는 8월 TIME지와의 인터뷰에서 말했습니다. “이러한 배출물은 어린이, 노인, 천식이나 COPD 등의 호흡기 질환을 앓는 이들을 포함해 우리 도시에서 가장 취약한 주민들에게 가장 심각한 위험을 제공합니다.”1860년대 해방된 노예들이 세운 동네인 박스타운(Boxtown)은 기존 산업 오염으로 인해 이미 전국 평균 대비 4배 높은 암 발병 위험에 직면해 있습니다. 지역 활동가들은 해당 시설이 2024년 6월에 개소한 이래로 천식 발작과 호흡기 문제의 증가를 보고하고 있습니다.보다 폭넓은 청정 에너지 계획이 88에이커 규모의 프로젝트는 더 큰 재생에너지 이니셔티브의 일부입니다. 9월에 xAI는 100MW 규모의 그리드용 배터리와 결합된 100MW 태양광 발전소를 구축해 24시간 전력을 공급할 계획을 발표했습니다. 해당 프로젝트를 관리하는 개발업체인 세븐스테이츠 파워 컴퍼니는 1월 미국 농무부로부터 4억 3,900만 달러를 지원받았으며, 이 중 4억 1,400만 달러는 무이자 대출입니다.현지 당국은 7월 xAI에게 2027년 1월까지 멤피스 시설에서 15대 터빈을 운영할 수 있는 허가를 내주었습니다. 하지만 위성 사진에서는 허가된 것보다 더 많은 터빈이 가동 중인 것으로 확인되었습니다. 한편, xAI는 주 경계를 넘어 미시시피에 위치한 콜로서스 2 데이터 센터에 가스 터빈 59대를 설치했으며, 그 중 18대는 임시용으로 분류되어 있어 표준 배출량 보고에서 면제됩니다.
734 조회
0 추천
2025.11.27 등록
WIRED에 따르면, 1,000명 이상의 Amazon 직원들이 회사의 “모든 비용을 정당화하는 빠른 속도의 AI 혁신 접근법”이 민주주의, 고용, 환경을 위협한다고 경고하는 공개 서한에 서명했다.고위 엔지니어부터 창고 근로자까지 다양한 청원 서명자들은 Amazon이 데이터 센터에서 화석 연료 사용을 중단하고 감시 목적의 AI 배포를 금지할 것을 요구하고 있으며, 회사의 AI 추진이 해고를 정당화하는 구실로 사용되고 있고 에너지 수요로 인해 전력 공급업체들이 석탄 및 탄소 집약적 에너지원으로 회귀하도록 강요하고 있다는 우려를 제기했다.이러한 활동은 Amazon이 AI 전략과 관련하여 약 14,000개의 일자리 감축을 발표한 가운데 이루어졌으며, 해고된 직원의 거의 40%가 엔지니어였고, 회사의 탄소 배출량은 2019년 탄소 중립 서약을 발표한 이후 35% 급증했다.
735 조회
0 추천
2025.11.27 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입