Loading...

AI 뉴스

스탠포드 연구 결과, AI 챗봇이 사실과 믿음을 구별하는 데 어려움

페이지 정보

작성자 xtalfi
작성일 2025.11.05 16:56
1,550 조회
0 추천
0 비추천

본문

solen-feyissa-5Ib2B9MBJhQ-unsplash.jpg

(퍼플렉시티가 정리한 기사)


Nature Machine Intelligence에 발표된 포괄적인 연구에 따르면, ChatGPT를 포함한 주요 AI 챗봇들이 참된 믿음과 거짓된 믿음을 안정적으로 구분하지 못하는 것으로 밝혀졌으며, 이는 의료, 법률, 저널리즘과 같은 중요한 분야에서의 배치에 대한 심각한 우려를 제기하고 있다.​


AI 모델들, 신념 인식에서 근본적인 약점 보여

스탠퍼드 대학교 연구진은 13,000개의 질문을 사용하여 24개의 대규모 언어 모델을 테스트한 결과, 모든 시스템이 참인 믿음에 비해 거짓 믿음을 식별하는 데 어려움을 겪는 것으로 나타났다. 연구에 따르면 GPT-4o를 포함하여 2024년 5월 이후에 출시된 최신 모델들은 참인 1인칭 믿음에 비해 거짓 1인칭 믿음을 인정할 가능성이 34.3% 낮았다. 구형 모델들은 더욱 낮은 성능을 보여 거짓 믿음을 정확하게 식별하는 비율이 38.6% 감소했다.​

이러한 모델들은 단순한 참 또는 거짓 진술을 식별할 때 91.1%에서 91.5% 사이의 정확도를 달성했지만, "나는 ...라고 믿는다"와 같은 믿음 기반 언어를 다룰 때는 성능이 급격히 저하되었다. 연구진에 따르면, AI 시스템은 "일관성 없는 추론 전략"을 보였으며, 깊이 있는 이해보다는 피상적인 패턴 매칭에 의존했다.​


실제 응용 분야에 대한 우려 증가

이번 연구 결과는 AI 챗봇 사용이 급속도로 확대되고 있는 중요한 시점에 나왔다. 최근 Adobe Express 보고서에 따르면 ChatGPT를 사용하는 미국인의 77%가 이를 검색 엔진으로 간주하며, 사용자 3명 중 1명은 기존 검색 엔진보다 더 신뢰한다고 밝혔다. 이러한 추세는 규제 조치를 촉발했으며, OpenAI는 2025년 10월 29일부로 ChatGPT가 의료, 법률 또는 금융 조언을 제공하는 것을 공식적으로 금지했다.​

마드리드 자치대학교의 컴퓨터 언어학 전문가인 Pablo Haya Coll은 정확성이 필수적인 중요한 분야에서 "믿음과 지식을 혼동하면 판단에 심각한 오류를 초래할 수 있다"고 경고했다. 연구진은 이러한 한계가 "진단을 오도하고, 사법적 판단을 왜곡하며, 잘못된 정보를 증폭시킬 수 있다"고 강조했다.​

최근 사건들은 실제로 이러한 위험을 부각시켰다. 5월에 캘리포니아 판사는 법률 문서에 AI가 생성한 허위 정보를 포함시킨 두 로펌에 31,000달러의 벌금을 부과했다. 또한 스탠퍼드 대학의 허위정보 전문가는 ChatGPT의 도움으로 작성된 법정 진술서에서 "환각적 인용"을 간과했음을 인정했다.​

연구 저자들은 AI 기술이 고위험 분야에 광범위하게 배포되기 전에 "긴급한 개선"이 필요하다고 결론지었으며, 특히 주관적 믿음과 객관적 사실을 구분하지 못하는 기술의 무능력은 근본적인 구조적 약점을 나타낸다고 밝혔다.

댓글 0
전체 1,366 / 74 페이지
테슬라의 CEO 일론 머스크는 일요일에 AI 칩 디자이너를 직접 채용하는 구인 활동을 시작하며, 회사가 5세대 AI 칩의 완성에 가까워졌고 이미 6세대 칩 작업을 시작했다고 밝혔습니다. 이는 맞춤형 AI 하드웨어 생산을 지배하기 위한 공격적 계획의 일환입니다.X에 연속적으로 올린 게시물에서 머스크는 테슬라가 차량 플릿과 데이터 센터에 “수백만 개의 AI 칩”을 배포했으며, 현재의 AI4 세대가 완전자율주행 시스템을 구동하고 있다고 공개했습니다. 회사는 이제 생산 직전의 최종 설계 단계인 “AI5 테이프 아웃(taping out) 직전”에 있으며 AI6 개발도 시작했다고 했습니다.머스크는 “우리의 목표는 매 12개월마다 새로운 AI 칩 설계를 대량 생산에 내놓는 것”이라며, 테슬라가 “궁극적으로 모든 다른 AI 칩을 합한 것보다 더 많은 칩을 만들게 될 것으로 기대한다”고 썼습니다. 그는 “저 문장을 다시 읽어보세요. 저는 농담이 아닙니다”라고 강조했습니다.직접 채용 채널 오픈머스크는 “뛰어난 능력”을 가진 지원자들에게 AI_Chips@Tesla.com으로 이메일을 보내 자신의 전문성, 특히 칩 설계에 AI를 적용한 경험을 세 가지 요점으로 증명해 달라고 요청했다. 이번 채용 활동은 자율주행과 회사의 옵티머스 휴머노이드 로봇 개발을 가속화하기 위한 것이다.CEO는 칩 프로그램에 자신이 직접 관여하고 있음을 밝히며, 매주 화요일과 토요일마다 엔지니어링 팀과 회의를 한다고 말했다. “토요일 회의는 단기적인 것이며 AI5가 테이프 아웃되면 몇 달 내로 더 이상 필요하지 않을 것”이라고 그는 덧붙였다.제조 파트너십과 경쟁테슬라는 칩 로드맵을 위해 TSMC와 삼성전자 모두와 제조 파트너십을 확보했습니다. TSMC는 대만과 애리조나 시설에서 AI5 칩을 생산할 예정이며, 삼성은 2033년까지 165억 달러 규모의 계약을 체결하여 텍사스 테일러의 신공장에서 AI6 칩을 제조합니다.이 프로젝트는 테슬라를 파트너이자 경쟁자인 엔비디아[ -0.97%]와 함께 AI 칩 시장에서 중요한 위치에 올려놓습니다. 테슬라는 데이터센터에서 AI 모델을 훈련하기 위해 엔비디아 GPU를 계속 사용하지만, 자체 개발 칩은 차량에서 추론 작업을 처리합니다.머스크가 제시한 일정에 따르면, AI5는 2026년에 제한적 생산을 시작하고, 2027년에 대량 생산을 목표로 하고 있습니다. AI6는 2028년 중반에 출시될 예정이며, 머스크가 “빠른 추격” 개발 속도라고 묘사한 것을 유지할 방침입니다.
870 조회
0 추천
2025.11.24 등록
인공지능(AI)기술이하루가다르게발전하며우리삶깊숙이파고들고있습니다.이러한변화속에서많은부모는'우리아이를어떻게키워야할까?'라는막연한불안감에휩싸이곤합니다.AI가아이들의일자리를빼앗지는않을지,기술에지나치게의존하게되지는않을지걱정이앞서는것이사실입니다.하지만AI전문가네이트존스(NateJones)는그의뉴스레터아티클 "RaisingHumansintheAgeofAI:APracticalGuideforParents(AI시대의자녀양육:부모를위한실질적가이드)"에서이러한두려움을내려놓고'이해'와'코칭'으로나아가야한다고역설합니다.그는공포를조장하는대다수미디어와달리,AI가실제로어떻게작동하고왜그렇게작동하는지에대한실질적인설명을제공하여부모스스로기술을정확히이해하도록돕습니다.이가이드의핵심은단순히AI사용을금지하거나방치하는것이아닙니다.대신,부모가자녀에게현실세계에서AI를주체적으로활용할수있는능력을길러줄수있도록구체적인**'기술프레임워크(SkillsFramework)'**를제시합니다.이는아이들이AI를막연한두려움의대상이나맹목적인의존의대상이아닌,자신의목표를이루기위한유용한도구로인식하고활용할수있도록이끌어줍니다.AI시대의부모역할은더이상기술로부터아이를격리하는감시자가아닙니다.기술을이해하고아이가올바른방향으로나아갈수있도록돕는**'든든한코치'**가되어야합니다.네이트존스의이실용적인가이드는AI시대를살아갈우리아이들이기술에휘둘리지않고'인간답게'성장할수있도록돕는필수적인나침반이되어줄것입니다.
902 조회
0 추천
2025.11.23 등록
Physical Intelligence는 2024년에 전 Google DeepMind 연구원들이 창립한 로봇 AI 스타트업으로, 모든 로봇에 적용 가능한 범용 “브레인” 소프트웨어를 개발하면서, 기업 가치 56억 달러에 CapitalG 주도로 6억 달러의 자금을 유치했습니다.해당 투자 라운드에는 Jeff Bezos, Amazon, Lux Capital, Thrive Capital, Index Ventures, 그리고 T. Rowe Price가 참여했으며, 이 스타트업은 특정 작업별 프로그래밍 없이 어떤 응용 분야에서도 사용할 수 있는 로봇에 동력을 제공하는 것을 목표로 하고 있습니다.이번 투자는 AI 기반 로봇 분야의 자본 유입 급증을 반영하며, 경쟁사인 Figure AI는 390억 달러 가치에 10억 달러 이상을 유치했고, 전체 로봇 산업은 2025년 1분기 동안에만 22억 6천만 달러 이상의 투자를 받았습니다.
906 조회
0 추천
2025.11.23 등록
Allen Institute for AI (Ai2)는 OLMo 3를 출시했으며, 이는 7B 및 32B 언어 모델 제품군으로, 경쟁사들이 이러한 구성 요소를 공개하지 않는 것과 대조적으로 훈련 데이터, 코드, 중간 체크포인트 및 훈련 로그에 대한 완전한 접근을 제공하는 최초의 완전 공개 32B 추론 모델이라고 설명합니다.OLMo 3-32B는 6배 적은 토큰으로 훈련되면서도 추론 벤치마크 전반에 걸쳐 Qwen3-32B와 비교할 만한 성능을 달성하여, 지도 미세 조정, 선호도 최적화 및 강화 학습 파이프라인을 통해 가능한 효율성 향상을 입증합니다.이 프로젝트에는 60명 이상의 저자가 참여했으며 65,000개 토큰 컨텍스트 창을 지원하여, 훈련 데이터 공개에 대한 규제 압력이 증가하는 가운데 AI 시스템의 투명성을 추구하는 기업 및 연구 사용자를 위한 모델로 자리매김하고 있습니다.
948 조회
0 추천
2025.11.23 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입