Loading...

AI 뉴스

연구들이 AI 훈련 데이터와 테스트의 결함을 드러내다

페이지 정보

작성자 xtalfi
작성일 2025.11.07 14:52
1,600 조회
0 추천
0 비추천

본문

251105-ai-safety-tests-lr-10661e.jpg

(퍼플렉시티가 정리한 기사)


이번 주에 발표된 두 가지 주요 연구는 인공지능 시스템이 구축되고 평가되는 방식의 심각한 약점을 드러내며, AI 능력이 과장되어 왔는지에 대한 의문을 제기하고 있다.

Sony AI는 11월 5일 컴퓨터 비전 모델의 편향성을 드러내기 위해 설계된 데이터셋인 Fair Human-Centric Image Benchmark를 공개했으며, 옥스퍼드 인터넷 연구소와 영국 정부의 AI 보안 연구소 연구원들은 AI 성능을 측정하는 데 사용되는 테스트의 광범위한 결함을 밝히는 연구를 발표했다. 이러한 연구 결과들은 많은 AI 시스템이 윤리적으로 문제가 있는 데이터로 훈련되고 신뢰할 수 없는 방법으로 평가될 수 있음을 시사한다.​


훈련 데이터에 동의와 다양성이 부족함

Sony AI가 Nature에 발표한 새로운 벤치마크는 연구자들이 컴퓨터 비전 시스템에서 "편향되고 윤리적으로 문제가 있는 학습 데이터의 지속적인 과제"라고 부르는 문제를 다룹니다. 이 데이터셋은 81개국 1,981명의 개인이 찍힌 10,318장의 이미지로 구성되어 있으며, 모두 사전 동의와 공정한 보상을 받아 수집되었습니다—이는 업계 관행과 크게 다른 방식입니다.​

Sony Group의 AI 거버넌스 글로벌 책임자인 Alice Xiang은 컴퓨터 비전이 객관적이지 않다고 강조했습니다. "컴퓨터 비전은 학습 데이터에 반영된 편향에 따라 사물을 왜곡할 수 있습니다"라고 그녀는 말했습니다. 데이터셋은 기존 AI 모델 중 공정성 테스트를 완전히 통과한 모델이 없다는 것을 보여주었습니다. 일부 모델은 "she/her/hers" 대명사를 사용하는 사람들에 대해 낮은 정확도를 보였으며, 벤치마크는 이를 더 큰 헤어스타일 변동성—이전에 간과되었던 요인—으로 추적했습니다. 직업에 대한 중립적인 질문을 받았을 때, 테스트된 모델들은 특정 인구통계학적 그룹에 대해 특히 고정관념을 강화했으며, 때로는 피사체를 성매매 종사자, 마약상 또는 도둑으로 묘사했습니다.​


벤치마크 테스트가 신뢰할 수 없고 오해의 소지가 있는 것으로 밝혀짐

옥스퍼드 연구팀은 445개 AI 벤치마크를 조사한 결과, 거의 모든 벤치마크에 기술 기업들이 주장하는 결과의 신뢰성을 "약화시키는 결함"이 있음을 발견했습니다. 벤치마크 중 통계적 테스트를 통해 신뢰성을 증명한 것은 16%에 불과했습니다.​

핵심적인 문제는 구성 타당성(construct validity), 즉 테스트가 실제로 그들이 측정한다고 주장하는 것을 제대로 측정하는지에 관한 것입니다. 옥스퍼드 인터넷 연구소의 수석 연구원인 아담 마디(Adam Mahdi)는 NBC 뉴스와의 인터뷰에서, 그레이드 스쿨 매스 8K(Grade School Math 8K) 벤치마크와 같은 테스트에서 모델이 좋은 성과를 거둔다고 해서 반드시 추론 능력을 보여준다고 할 수는 없다고 말했습니다. 그는 "1학년 학생에게 '2 더하기 5가 뭐야?'라고 물었을 때 '7이에요'라고 답하면, 분명 정답입니다. 하지만 이로부터 5학년이 수학적 추론을 완벽하게 습득했다고 결론지을 수 있을까요?"라고 덧붙였습니다.​

이번 연구는 데이터 오염(data contamination)을 주요 문제로 지적했는데, 이는 테스트 문항이 모델의 학습 데이터셋에 포함되어 있어 모델이 답을 추론하는 것이 아니라 암기해서 답을 내는 현상입니다. Mixtral, Phi-3, Gemma를 포함한 여러 모델은 GSM8K 벤치마크와 유사한 신규 문항으로 평가할 때 성능이 최대 13%까지 저하되는 것으로 나타났습니다.​

옥스퍼드 연구의 수석 저자인 앤드루 빈(Andrew Bean)은 업계에서 내놓는 주장들을 그대로 믿어서는 안 된다고 경고했습니다. "모델이 박사 수준의 지능을 가졌다는 것 같은 이야기를 볼 때는 한 번쯤 의심해볼 필요가 있습니다,"라고 빈은 NBC 뉴스에 말했습니다. 이번 연구 결과는 최근 구글이 자사의 Gemma AI 모델이 미국 상원의원에 관한 허위 주장을 생성한 후에 모델을 철회한 상황에서 나왔습니다.

댓글 0
전체 1,366 / 25 페이지
MIT Technology Review는 AI로 생성된 비디오 콘텐츠를 처음에는 저품질 "slop"으로 치부했으나, 추가 조사 결과 크리에이터들이 OpenAI의 Sora, Google의 Veo, Runway와 같은 도구를 사용하여 기술과 실험이 필요한 의도적이고 종종 초현실적인 예술 작품을 제작하는 더 미묘한 창작 생태계가 있음을 발견했다고 보도했습니다.technologyreview​ AI 비디오 크리에이터들과의 인터뷰에 따르면 매력적인 콘텐츠를 제작하는 데는 클립당 수 시간의 작업이 필요하며, Daryl Anselmo와 같은 아티스트는 4년간의 일일 AI 실험을 갤러리 전시회로 편집하고, 다른 이들은 수백만 명의 팔로워를 확보한 반복 캐릭터 프랜차이즈를 구축하고 있습니다.inkl+1​ Adobe 설문조사에 따르면 전 세계 크리에이터의 86%가 현재 생성형 AI 도구를 사용하고 있으며, Brookings 연구에서는 2022년 새로운 AI 도구 출시 이후 AI에 노출된 분야의 프리랜서들이 계약 2% 감소와 수입 5% 하락을 경험했다고 밝혀 이 기술의 파괴적인 경제적 영향을 강조했습니다.biz.chosun+2​ https://www.technologyreview.com/2025/12/23/1130396/how-i-learned-to-stop-worrying-and-love-ai-slop/ https://www.inkl.com/news/the-ais-have-it-adobe-report-reveals-86-of-creators-use-creative-generative-ai https://biz.chosun.com/en/en-it/2025/11/04/FRVYHP2MVBDB3PWZ5NBT5C3K6M/ https://www.brookings.edu/articles/is-generative-ai-a-job-killer-evidence-from-the-freelance-market/ https://www.cnbc.com/2024/12/09/openai-releases-sora-its-buzzy-ai-video-generation-tool.html https://mashable.com/article/ai-slop-tiktok-fyp-trending-social-media-why https://www.reddit.com/r/VEO3/comments/1m6oc2v/veo_vs_sora_runway_ai_video_generators_for_quick/ https://www.transparencycoalition.ai/news/openai-launches-sora-video-generator-aims-to-kickstart-ai-video-era https://www.reddit.com/r/Futurology/comments/1hyt8dm/aigenerated_slop_is_slowly_killing_the_internet/ https://www.youtube.com/watch?v=US2gO7UYEfY https://www.axios.com/2024/12/09/openai-sora-video-ai-tool https://en.wikipedia.org/wiki/AI_slop https://www.youtube.com/watch?v=g5CWQXoK7wM https://www.theguardian.com/technology/2024/dec/09/openai-ai-video-generator-sora-publicly-available https://hawkemedia.com/insights/ai-slop/ https://www.youtube.com/watch?v=eZvSwOnnLrs https://www.cnbc.com/2025/09/30/openai-sora-ai-video-generator-us-canada.html https://www.theguardian.com/commentisfree/2025/apr/21/ai-slop-artificial-intelligence-social-media https://deepmind.google/models/veo/ https://openai.com/index/sora-is-here/ https://www.cnet.com/tech/services-and-software/ai-slop-has-turned-social-media-into-an-antisocial-wasteland/ https://www.youtube.com/watch?v=NmoZvPt0a78 https://openai.com/index/sora-2/ https://www.searchenginepeople.com/blog/ai-slop-and-the-rise-of-slop-culture.html https://www.today.com/news/bunnies-jumping-trampoline-viral-video-ai-concern-rcna223637 https://tech.yahoo.com/ai/articles/ais-adobe-report-reveals-86-153703401.html https://www.reddit.com/r/Bunnies/comments/1mjvetv/a_viral_security_cam_clip_of_rabbits_bouncing_on/ https://www.abc.net.au/news/2025-11-25/ai-slop-named-macquarie-dictionary-word-of-the-year-2025/106047682 https://www.youtube.com/watch?v=9O-8kAnBL2s https://dictionary.cambridge.org/us/dictionary/english/slop https://news.adobe.com/news/2025/10/adobe-max-2025-creators-survey https://www.facebook.com/thedodosite/videos/viral-trampoline-animal-videos-show-how-ai-can-go-really-wrong/4068853723366784/ https://www.linkedin.com/posts/kingajentetics_cambridge-dictionary-adds-new-definition-activity-7344348856932798464-g-ME https://www.netinfluencer.com/86-percent-of-global-creators-now-leverage-ai-tools-driving-growth-in-creator-economy-adobe-report/ https://www.youtube.com/watch?v=ydycD3iMhvc https://www.cambridge.org/news-and-insights/cambridge-dictionary-tracks-new-ai-words https://blog.adobe.com/en/publish/2024/10/08/adobes-ai-creative-frontier-study-reveals-creators-views-opportunities-risks-generative-ai https://www.tiktok.com/@rachelthecatlovers/video/7531584773500751118 https://www.thebookseller.com/news/cambridge-dictionary-adds-new-definition-for-slop-to-reflect-low-quality-content-created-by-ai https://www.linkedin.com/posts/paulgreenberg_the-creator-economy-has-embraced-generative-activity-7389380797801062400-VsWW https://www.youtube.com/shorts/vTPx_muLksc https://www.bbc.com/news/articles/c5y0g79xevxo https://people.com/openai-bans-martin-luther-king-jr-deepfakes-following-racist-videos-11832092 https://builtin.com/articles/job-market-ai-impact-yale-brookings-study https://edition.cnn.com/2025/10/17/tech/openai-mlk-sora-pause https://www.brookings.edu/articles/the-effects-of-ai-on-firms-and-workers/ https://www.cnn.com/2025/10/17/tech/openai-mlk-sora-pause https://www.brookings.edu/articles/new-data-show-no-ai-jobs-apocalypse-for-now/ https://fortune.com/2025/10/17/openai-sora-martin-luther-king-deepfakes-foolishness-direspectful/ https://www.facebook.com/businessinsider/posts/brookings-says-that-ai-could-initially-boost-wages-but-then-drive-them-down-as-a/1210304244301191/ https://www.cnbc.com/2025/10/17/open-ai-sora-mlk-jr-disrespectful-deepfakes.html https://www.brookings.edu/articles/how-are-americans-using-ai-evidence-from-a-nationwide-survey/ https://www.npr.org/2025/10/17/nx-s1-5577869/sora-block-videos-mlk https://www.linkedin.com/posts/brookings-metro_ai-generativeai-aiadoption-activity-7379252760019632129-73QS https://mashable.com/article/openai-marthin-luther-king-sora-offensive-memes-backlash https://www.facebook.com/techinsider/posts/brookings-says-that-ai-could-initially-boost-wages-but-then-drive-them-down-as-a/1211787024154105/ https://www.yahoo.com/news/articles/openais-sora-2-app-suspends-173232838.html https://budgetlab.yale.edu/research/evaluating-impact-ai-labor-market-current-state-affairs https://www.reddit.com/r/technology/comments/1o8wpy8/openai_pauses_sora_video_generations_of_martin/
802 조회
0 추천
2025.12.26 등록
Pendo의 수석 제품 디자이너인 Brian Greenbaum은 육아휴직 중 보낸 단 하나의 Slack 메시지로 회사 전체의 변화를 촉발시킨 후, 전체 제품 조직에 걸쳐 AI 도입을 이끌어내기 위한 실용적인 플레이북을 공유합니다.lennysnewsletter​ 그의 접근 방식은 동기식 실습 워크숍과 비동기식 학습 기회를 결합했으며, 법무, 보안, 재무 팀과 협력하여 명확한 정책을 수립함으로써 AI 도구 사용을 위한 "황금 경로"를 확립했습니다.lennysnewsletter​ 이 이니셔티브는 Greenbaum의 개인 기여자 역할을 넘어 그의 경력을 변화시켰으며, 회사 전략에 영향을 미치고 조직의 AI 챔피언으로 자리매김할 수 있는 기회를 열어주었습니다—이는 AI 도입을 주도하는 것이 어떻게 중요한 경력 가속기 역할을 할 수 있는지를 보여줍니다.lennysnewsletter​ https://www.lennysnewsletter.com/p/how-to-get-your-whole-team-excited https://www.lennysnewsletter.com/p/this-week-on-how-i-ai-how-to-get
800 조회
0 추천
2025.12.26 등록
Nate's Newsletter는 Claude Code가 오해의 소지가 있는 이름이라고 주장하는데, Anthropic의 12월 릴리스는 소프트웨어 개발이 아니라 브라우저 자동화, Slack 통합, 모바일 위임, 그리고 비기술 사용자들이 코드 작성 없이 활용할 수 있는 조직 워크플로우 도구에 초점을 맞췄기 때문이다.natesnewsletter.substack​ 이 가이드는 29페이지의 설정 지침, 양식 작성, 경쟁 조사, 회의 처리, 파일 정리를 포함한 10가지 단계별 프로덕션 워크플로우, 그리고 완전한 자율 위임이 아닌 빈번한 체크포인트를 통한 반복적 협업을 통해 Claude에게 작업을 위임하는 프레임워크를 제공한다.natesnewsletter.substack​ Anthropic의 내부 연구에 따르면 사용자들은 Claude로 업무의 60%를 완료하고 50%의 생산성 향상을 달성하며, Claude Code는 2025년 5월 공개 출시 후 단 6개월 만에 연간 10억 달러의 수익을 달성했다.venturebeat+1​ https://natesnewsletter.substack.com/p/the-complete-wait-i-can-use-claude https://venturebeat.com/ai/anthropics-claude-code-can-now-read-your-slack-messages-and-write-code-for https://simonwillison.net/2025/Oct/20/claude-code-for-web/ https://x.com/DanielMiessler/status/2002485123040817525 https://www.gend.co/blog/automate-code-sessions-with-claude-in-slack https://en.wikipedia.org/wiki/Claude_(language_model) https://code.claude.com/docs/en/slack https://techcrunch.com/2025/10/20/anthropic-brings-claude-code-to-the-web/ https://x.com/mattyglesias/status/2002388080460812420 https://www.codegpt.co/blog/anthropic-claude-models-complete-guide https://x.com/simonw/status/2002416381980213307 https://www.salesforce.com/news/stories/claude-code-in-slack/ https://www.datastudios.org/post/all-claude-ai-models-available-in-2025-full-list-for-web-app-api-and-cloud-platforms https://bsky.app/profile/mattyglesias.bsky.social https://www.reddit.com/r/ClaudeCode/comments/1phuzfs/claude_code_in_slack_signals_shift_to/ https://www.anthropic.com/claude/sonnet https://x.com/LBacaj/status/2002446302744097050 https://n8n.io/integrations/claude/and/slack/ https://support.claude.com/en/articles/12138966-release-notes https://www.slowboring.com/p/mailbag-more-philosophical-than-usual https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ https://claude-plugins.dev/skills/@greyhaven-ai/claude-code-config/browser-automation https://claude-plugins.dev/skills/@chriscarterux/chris-claude-stack/effective-delegation-patterns https://newsroom.accenture.com/news/2025/accenture-and-anthropic-launch-multi-year-partnership-to-drive-enterprise-ai-innovation-and-value-across-industries https://www.datacamp.com/tutorial/claude-for-chrome-ai-powered-browser-assistance-automation https://claude-plugins.dev/skills/@rsmdt/the-startup/agent-delegation https://www.youtube.com/watch?v=4ue4CNt8YxE https://code.claude.com/docs/en/chrome https://www.youtube.com/watch?v=0J2_YGuNrDo https://www.anthropic.com/news https://github.com/SawyerHood/dev-browser https://www.youtube.com/watch?v=oZF6TgxB5yw https://www.snowflake.com/en/news/press-releases/snowflake-and-anthropic-announce-200-million-partnership-to-bring-agentic-ai-to-global-enterprises/ https://www.reddit.com/r/ClaudeAI/comments/1prcypb/anthropic_just_dropped_claude_for_chrome_ai_that/ https://claude.ai/public/artifacts/7029f156-12d7-4680-9df4-5af4715e0612 https://www.anthropic.com/news/snowflake-anthropic-expanded-partnership https://www.youtube.com/watch?v=XYzs8JJAL24 https://www.reddit.com/r/ClaudeAI/comments/1obq6wq/understanding_claude_skills_vs_subagents_its_not/ https://techcrunch.com/2025/12/04/anthropic-signs-200m-deal-to-bring-its-llms-to-snowflakes-customers/ https://www.anthropic.com/engineering/claude-code-best-practices
897 조회
0 추천
2025.12.26 등록
Meta의 퇴임하는 수석 AI 과학자이자 튜링상 수상자인 Yann LeCun은 AI 팟캐스트 "The Information Bottleneck"에서 "일반 지능"이라는 개념을 "완전한 헛소리"라고 선언했으며, 이에 Google DeepMind CEO Demis Hassabis가 X에서 LeCun이 "명백히 틀렸다"며 일반 지능과 보편 지능을 혼동하고 있다고 공개적으로 반박했다.the-decoder​LeCun은 인간의 지능이 일반적이라기보다는 고도로 특화되어 있으며—우리가 이해할 수 없는 문제를 상상할 수 없기 때문에 생긴 착각이라고 주장하는 반면, Hassabis는 뇌와 AI 기반 모델이 충분한 시간, 메모리, 데이터가 주어지면 계산 가능한 모든 것을 학습할 수 있는 근사 튜링 머신으로 기능한다고 반박한다.the-decoder+1​이 공개적인 의견 충돌은 DeepMind가 인공 일반 지능 달성에 대한 자신감이 커지고 있음을 보여주며, 공동 창립자 Shane Legg는 12월 중순 회사 공식 팟캐스트에서 많은 인간 인지 작업을 처리할 수 있는 "최소한의 AGI" 형태가 이르면 2028년에 도래할 수 있다고 밝혔다.the-decoder​youtube​https://the-decoder.com/yann-lecun-calls-general-intelligence-complete-bs-and-deepmind-ceo-hassabis-fires-back-publicly/https://www.the-information-bottleneck.com/ep20-yann-lecun/https://www.youtube.com/watch?v=l3u_FAv33G0
788 조회
0 추천
2025.12.26 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입