AI 뉴스

AI 에이전트의 수학적 한계... "신뢰성 100%는 불가능"

페이지 정보

작성자 symbolika
작성일 01.25 10:12
26 조회
0 추천
0 비추천

본문

AI Agents Math

Executive Summary

• 최근 발표된 연구 논문에서 트랜스포머 기반 언어 모델(LLM)은 일정 수준 이상의 복잡한 계산 및 에이전트 작업을 수행할 수 없다는 수학적 증명을 제시
• AI 업계는 이에 반박하며, 환각(hallucination)은 불가피하지만 가드레일(guardrails)로 통제 가능하다고 주장
• 스타트업 Harmonic은 수학적 검증 방법론으로 AI 코딩의 신뢰성을 높이는 해법을 제시하며 벤치마크 선두 기록
• OpenAI도 자체 연구에서 "정확도 100%는 도달할 수 없다"고 인정했으나, 업계 전반은 에이전트 기술 발전에 낙관적 입장 유지
• 전문가들은 환각을 '버그'가 아닌 인간을 초월한 발상의 원천으로 재해석하는 시각도 제시


Background

2025년은 AI 업계에서 '에이전트의 해'로 기대됐지만, 실제로는 에이전트에 대한 논의만 무성했을 뿐 실질적 전환점은 2026년 이후로 미뤄졌다. 이러한 가운데 전 SAP CTO 비샬 시카(Vishal Sikka)와 그의 아들이 공동 저술한 논문이 LLM 기반 에이전트의 본질적 한계를 수학적으로 논증하며 업계에 파장을 일으켰다.


Impact & Implications

기술적 한계와 현실

해당 논문은 LLM이 순수한 단어 예측 메커니즘을 넘어서는 추론 모델조차도 근본적 한계를 극복할 수 없다고 주장한다. 논문 공저자 시카는 "순수 LLM에는 본질적 한계가 있지만, LLM 주변에 이를 보완하는 구성요소를 구축할 수 있다"며 완전한 비관론을 경계했다. 이는 원자력 발전소 같은 고위험 인프라의 AI 자동화는 당분간 현실적이지 않음을 시사한다.

업계의 대응과 해법 모색

스타트업 Harmonic은 수학적 검증 기법을 통해 AI 출력물의 신뢰성을 보장하는 접근법을 제시했다. 특히 검증 기능으로 유명한 Lean 프로그래밍 언어로 출력을 인코딩하는 방식이 핵심이다. 구글의 AI 수장 데미스 하사비스(Demis Hassabis)도 다보스 포럼에서 환각 최소화 연구의 돌파구를 발표하는 등 대형 테크 기업들도 해결책 마련에 속도를 내고 있다.

환각의 재해석: 버그인가, 혁신의 원천인가

Harmonic의 튜더 아킴(Tudor Achim)은 "환각은 LLM에 본질적이면서도 인간 지능을 초월하는 데 필수적"이라며 환각을 새로운 시각으로 재정의했다. 그에 따르면 시스템이 학습하는 방식 자체가 환각을 통한 것이며, 대부분 틀리지만 때로는 인간이 한 번도 생각하지 못한 것을 만들어낸다는 것이다.


Key Data & Facts

항목수치/내용
연구 주제트랜스포머 기반 LLM의 계산적·에이전트적 한계 수학적 증명
주요 논문 저자Vishal Sikka (전 SAP CTO, Vianai CEO)
Harmonic 창업자Vlad Tenev (Robinhood CEO), Tudor Achim
OpenAI 공식 입장"AI 모델의 정확도는 절대 100%에 도달하지 못할 것"
검증 기술Lean 프로그래밍 언어 기반 수학적 검증

Key Quote

"There is no way they can be reliable... you might have to resign yourself to some mistakes."
— Vishal Sikka, Vianai CEO 겸 전 SAP CTO
"I think hallucinations are intrinsic to LLMs and also necessary for going beyond human intelligence."
— Tudor Achim, Harmonic 공동창업자
댓글 0
전체 1,366 / 19 페이지
MIT Technology Review는 AI로 생성된 비디오 콘텐츠를 처음에는 저품질 "slop"으로 치부했으나, 추가 조사 결과 크리에이터들이 OpenAI의 Sora, Google의 Veo, Runway와 같은 도구를 사용하여 기술과 실험이 필요한 의도적이고 종종 초현실적인 예술 작품을 제작하는 더 미묘한 창작 생태계가 있음을 발견했다고 보도했습니다.technologyreview​ AI 비디오 크리에이터들과의 인터뷰에 따르면 매력적인 콘텐츠를 제작하는 데는 클립당 수 시간의 작업이 필요하며, Daryl Anselmo와 같은 아티스트는 4년간의 일일 AI 실험을 갤러리 전시회로 편집하고, 다른 이들은 수백만 명의 팔로워를 확보한 반복 캐릭터 프랜차이즈를 구축하고 있습니다.inkl+1​ Adobe 설문조사에 따르면 전 세계 크리에이터의 86%가 현재 생성형 AI 도구를 사용하고 있으며, Brookings 연구에서는 2022년 새로운 AI 도구 출시 이후 AI에 노출된 분야의 프리랜서들이 계약 2% 감소와 수입 5% 하락을 경험했다고 밝혀 이 기술의 파괴적인 경제적 영향을 강조했습니다.biz.chosun+2​ https://www.technologyreview.com/2025/12/23/1130396/how-i-learned-to-stop-worrying-and-love-ai-slop/ https://www.inkl.com/news/the-ais-have-it-adobe-report-reveals-86-of-creators-use-creative-generative-ai https://biz.chosun.com/en/en-it/2025/11/04/FRVYHP2MVBDB3PWZ5NBT5C3K6M/ https://www.brookings.edu/articles/is-generative-ai-a-job-killer-evidence-from-the-freelance-market/ https://www.cnbc.com/2024/12/09/openai-releases-sora-its-buzzy-ai-video-generation-tool.html https://mashable.com/article/ai-slop-tiktok-fyp-trending-social-media-why https://www.reddit.com/r/VEO3/comments/1m6oc2v/veo_vs_sora_runway_ai_video_generators_for_quick/ https://www.transparencycoalition.ai/news/openai-launches-sora-video-generator-aims-to-kickstart-ai-video-era https://www.reddit.com/r/Futurology/comments/1hyt8dm/aigenerated_slop_is_slowly_killing_the_internet/ https://www.youtube.com/watch?v=US2gO7UYEfY https://www.axios.com/2024/12/09/openai-sora-video-ai-tool https://en.wikipedia.org/wiki/AI_slop https://www.youtube.com/watch?v=g5CWQXoK7wM https://www.theguardian.com/technology/2024/dec/09/openai-ai-video-generator-sora-publicly-available https://hawkemedia.com/insights/ai-slop/ https://www.youtube.com/watch?v=eZvSwOnnLrs https://www.cnbc.com/2025/09/30/openai-sora-ai-video-generator-us-canada.html https://www.theguardian.com/commentisfree/2025/apr/21/ai-slop-artificial-intelligence-social-media https://deepmind.google/models/veo/ https://openai.com/index/sora-is-here/ https://www.cnet.com/tech/services-and-software/ai-slop-has-turned-social-media-into-an-antisocial-wasteland/ https://www.youtube.com/watch?v=NmoZvPt0a78 https://openai.com/index/sora-2/ https://www.searchenginepeople.com/blog/ai-slop-and-the-rise-of-slop-culture.html https://www.today.com/news/bunnies-jumping-trampoline-viral-video-ai-concern-rcna223637 https://tech.yahoo.com/ai/articles/ais-adobe-report-reveals-86-153703401.html https://www.reddit.com/r/Bunnies/comments/1mjvetv/a_viral_security_cam_clip_of_rabbits_bouncing_on/ https://www.abc.net.au/news/2025-11-25/ai-slop-named-macquarie-dictionary-word-of-the-year-2025/106047682 https://www.youtube.com/watch?v=9O-8kAnBL2s https://dictionary.cambridge.org/us/dictionary/english/slop https://news.adobe.com/news/2025/10/adobe-max-2025-creators-survey https://www.facebook.com/thedodosite/videos/viral-trampoline-animal-videos-show-how-ai-can-go-really-wrong/4068853723366784/ https://www.linkedin.com/posts/kingajentetics_cambridge-dictionary-adds-new-definition-activity-7344348856932798464-g-ME https://www.netinfluencer.com/86-percent-of-global-creators-now-leverage-ai-tools-driving-growth-in-creator-economy-adobe-report/ https://www.youtube.com/watch?v=ydycD3iMhvc https://www.cambridge.org/news-and-insights/cambridge-dictionary-tracks-new-ai-words https://blog.adobe.com/en/publish/2024/10/08/adobes-ai-creative-frontier-study-reveals-creators-views-opportunities-risks-generative-ai https://www.tiktok.com/@rachelthecatlovers/video/7531584773500751118 https://www.thebookseller.com/news/cambridge-dictionary-adds-new-definition-for-slop-to-reflect-low-quality-content-created-by-ai https://www.linkedin.com/posts/paulgreenberg_the-creator-economy-has-embraced-generative-activity-7389380797801062400-VsWW https://www.youtube.com/shorts/vTPx_muLksc https://www.bbc.com/news/articles/c5y0g79xevxo https://people.com/openai-bans-martin-luther-king-jr-deepfakes-following-racist-videos-11832092 https://builtin.com/articles/job-market-ai-impact-yale-brookings-study https://edition.cnn.com/2025/10/17/tech/openai-mlk-sora-pause https://www.brookings.edu/articles/the-effects-of-ai-on-firms-and-workers/ https://www.cnn.com/2025/10/17/tech/openai-mlk-sora-pause https://www.brookings.edu/articles/new-data-show-no-ai-jobs-apocalypse-for-now/ https://fortune.com/2025/10/17/openai-sora-martin-luther-king-deepfakes-foolishness-direspectful/ https://www.facebook.com/businessinsider/posts/brookings-says-that-ai-could-initially-boost-wages-but-then-drive-them-down-as-a/1210304244301191/ https://www.cnbc.com/2025/10/17/open-ai-sora-mlk-jr-disrespectful-deepfakes.html https://www.brookings.edu/articles/how-are-americans-using-ai-evidence-from-a-nationwide-survey/ https://www.npr.org/2025/10/17/nx-s1-5577869/sora-block-videos-mlk https://www.linkedin.com/posts/brookings-metro_ai-generativeai-aiadoption-activity-7379252760019632129-73QS https://mashable.com/article/openai-marthin-luther-king-sora-offensive-memes-backlash https://www.facebook.com/techinsider/posts/brookings-says-that-ai-could-initially-boost-wages-but-then-drive-them-down-as-a/1211787024154105/ https://www.yahoo.com/news/articles/openais-sora-2-app-suspends-173232838.html https://budgetlab.yale.edu/research/evaluating-impact-ai-labor-market-current-state-affairs https://www.reddit.com/r/technology/comments/1o8wpy8/openai_pauses_sora_video_generations_of_martin/
336 조회
0 추천
2025.12.26 등록
Pendo의 수석 제품 디자이너인 Brian Greenbaum은 육아휴직 중 보낸 단 하나의 Slack 메시지로 회사 전체의 변화를 촉발시킨 후, 전체 제품 조직에 걸쳐 AI 도입을 이끌어내기 위한 실용적인 플레이북을 공유합니다.lennysnewsletter​ 그의 접근 방식은 동기식 실습 워크숍과 비동기식 학습 기회를 결합했으며, 법무, 보안, 재무 팀과 협력하여 명확한 정책을 수립함으로써 AI 도구 사용을 위한 "황금 경로"를 확립했습니다.lennysnewsletter​ 이 이니셔티브는 Greenbaum의 개인 기여자 역할을 넘어 그의 경력을 변화시켰으며, 회사 전략에 영향을 미치고 조직의 AI 챔피언으로 자리매김할 수 있는 기회를 열어주었습니다—이는 AI 도입을 주도하는 것이 어떻게 중요한 경력 가속기 역할을 할 수 있는지를 보여줍니다.lennysnewsletter​ https://www.lennysnewsletter.com/p/how-to-get-your-whole-team-excited https://www.lennysnewsletter.com/p/this-week-on-how-i-ai-how-to-get
337 조회
0 추천
2025.12.26 등록
Nate's Newsletter는 Claude Code가 오해의 소지가 있는 이름이라고 주장하는데, Anthropic의 12월 릴리스는 소프트웨어 개발이 아니라 브라우저 자동화, Slack 통합, 모바일 위임, 그리고 비기술 사용자들이 코드 작성 없이 활용할 수 있는 조직 워크플로우 도구에 초점을 맞췄기 때문이다.natesnewsletter.substack​ 이 가이드는 29페이지의 설정 지침, 양식 작성, 경쟁 조사, 회의 처리, 파일 정리를 포함한 10가지 단계별 프로덕션 워크플로우, 그리고 완전한 자율 위임이 아닌 빈번한 체크포인트를 통한 반복적 협업을 통해 Claude에게 작업을 위임하는 프레임워크를 제공한다.natesnewsletter.substack​ Anthropic의 내부 연구에 따르면 사용자들은 Claude로 업무의 60%를 완료하고 50%의 생산성 향상을 달성하며, Claude Code는 2025년 5월 공개 출시 후 단 6개월 만에 연간 10억 달러의 수익을 달성했다.venturebeat+1​ https://natesnewsletter.substack.com/p/the-complete-wait-i-can-use-claude https://venturebeat.com/ai/anthropics-claude-code-can-now-read-your-slack-messages-and-write-code-for https://simonwillison.net/2025/Oct/20/claude-code-for-web/ https://x.com/DanielMiessler/status/2002485123040817525 https://www.gend.co/blog/automate-code-sessions-with-claude-in-slack https://en.wikipedia.org/wiki/Claude_(language_model) https://code.claude.com/docs/en/slack https://techcrunch.com/2025/10/20/anthropic-brings-claude-code-to-the-web/ https://x.com/mattyglesias/status/2002388080460812420 https://www.codegpt.co/blog/anthropic-claude-models-complete-guide https://x.com/simonw/status/2002416381980213307 https://www.salesforce.com/news/stories/claude-code-in-slack/ https://www.datastudios.org/post/all-claude-ai-models-available-in-2025-full-list-for-web-app-api-and-cloud-platforms https://bsky.app/profile/mattyglesias.bsky.social https://www.reddit.com/r/ClaudeCode/comments/1phuzfs/claude_code_in_slack_signals_shift_to/ https://www.anthropic.com/claude/sonnet https://x.com/LBacaj/status/2002446302744097050 https://n8n.io/integrations/claude/and/slack/ https://support.claude.com/en/articles/12138966-release-notes https://www.slowboring.com/p/mailbag-more-philosophical-than-usual https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ https://claude-plugins.dev/skills/@greyhaven-ai/claude-code-config/browser-automation https://claude-plugins.dev/skills/@chriscarterux/chris-claude-stack/effective-delegation-patterns https://newsroom.accenture.com/news/2025/accenture-and-anthropic-launch-multi-year-partnership-to-drive-enterprise-ai-innovation-and-value-across-industries https://www.datacamp.com/tutorial/claude-for-chrome-ai-powered-browser-assistance-automation https://claude-plugins.dev/skills/@rsmdt/the-startup/agent-delegation https://www.youtube.com/watch?v=4ue4CNt8YxE https://code.claude.com/docs/en/chrome https://www.youtube.com/watch?v=0J2_YGuNrDo https://www.anthropic.com/news https://github.com/SawyerHood/dev-browser https://www.youtube.com/watch?v=oZF6TgxB5yw https://www.snowflake.com/en/news/press-releases/snowflake-and-anthropic-announce-200-million-partnership-to-bring-agentic-ai-to-global-enterprises/ https://www.reddit.com/r/ClaudeAI/comments/1prcypb/anthropic_just_dropped_claude_for_chrome_ai_that/ https://claude.ai/public/artifacts/7029f156-12d7-4680-9df4-5af4715e0612 https://www.anthropic.com/news/snowflake-anthropic-expanded-partnership https://www.youtube.com/watch?v=XYzs8JJAL24 https://www.reddit.com/r/ClaudeAI/comments/1obq6wq/understanding_claude_skills_vs_subagents_its_not/ https://techcrunch.com/2025/12/04/anthropic-signs-200m-deal-to-bring-its-llms-to-snowflakes-customers/ https://www.anthropic.com/engineering/claude-code-best-practices
406 조회
0 추천
2025.12.26 등록
Meta의 퇴임하는 수석 AI 과학자이자 튜링상 수상자인 Yann LeCun은 AI 팟캐스트 "The Information Bottleneck"에서 "일반 지능"이라는 개념을 "완전한 헛소리"라고 선언했으며, 이에 Google DeepMind CEO Demis Hassabis가 X에서 LeCun이 "명백히 틀렸다"며 일반 지능과 보편 지능을 혼동하고 있다고 공개적으로 반박했다.the-decoder​LeCun은 인간의 지능이 일반적이라기보다는 고도로 특화되어 있으며—우리가 이해할 수 없는 문제를 상상할 수 없기 때문에 생긴 착각이라고 주장하는 반면, Hassabis는 뇌와 AI 기반 모델이 충분한 시간, 메모리, 데이터가 주어지면 계산 가능한 모든 것을 학습할 수 있는 근사 튜링 머신으로 기능한다고 반박한다.the-decoder+1​이 공개적인 의견 충돌은 DeepMind가 인공 일반 지능 달성에 대한 자신감이 커지고 있음을 보여주며, 공동 창립자 Shane Legg는 12월 중순 회사 공식 팟캐스트에서 많은 인간 인지 작업을 처리할 수 있는 "최소한의 AGI" 형태가 이르면 2028년에 도래할 수 있다고 밝혔다.the-decoder​youtube​https://the-decoder.com/yann-lecun-calls-general-intelligence-complete-bs-and-deepmind-ceo-hassabis-fires-back-publicly/https://www.the-information-bottleneck.com/ep20-yann-lecun/https://www.youtube.com/watch?v=l3u_FAv33G0
342 조회
0 추천
2025.12.26 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입