AI 뉴스

동일 질문에 AI 모델이 매번 다른 답변을 내는 이유

페이지 정보

작성자 xtalfi
작성일 2025.09.11 14:48
1,795 조회
0 추천
0 비추천

본문

d92349c8d65a778fcf2ade9bee8162e2EYfG.jpg

(퍼플렉시티가 정리한 기사)

전 오픈AI 최고기술책임자(CTO) 미라 무라티가 설립한 새로운 인공지능 회사인 Thinking Machines Lab은 화요일 첫 번째 연구 블로그 게시물을 공개하여, 올해 초 20억 달러의 시드 펀딩을 확보한 이후 구체적인 기술 작업으로 스타트업의 공식 데뷔를 알렸다.

이번 연구는 Thinking Machines Lab 소속 과학자인 호레이스 허(Horace He)가 저술했으며, 회사가 새롭게 개설한 "Connectionism" 블로그에 게재되었다. 이 연구는 현대 인공지능 시스템에서 만연하게 나타나는 한 가지 문제, 즉 대형 언어 모델이 동일한 질문을 받을 때 일관된 답변을 내놓지 못하는 현상을 다루고 있다.

 

AI 불일치의 근본 원인 파악하기

 

"LLM 추론에서 비결정성을 극복하기"라는 제목의 글은 AI의 무작위성이 그래픽 처리 장치(GPU)에서의 동시 처리에서 비롯된다는 일반적인 믿음에 의문을 제기합니다. 그는 그 진짜 원인이 NVIDIA 칩 내에서 실행되는 작은 프로그램인 GPU 커널들이 AI 추론 처리 중에 어떻게 조율되는가에 있다고 주장합니다.

그의 연구에 따르면, AI 시스템이 동일한 질문에 대해 다른 답변을 하는 주된 이유는 샘플링 선택이나 동시 스레드 때문이 아니라, 서로 다른 배치 크기에서 부동 소수점 연산이 서로 다르게 순서화되기 때문입니다. AI 추론 서버가 요청을 처리할 때, 동시에 처리되는 쿼리 수가 기본적인 수학 연산의 순서를 바꿔, 수치적으로는 다르지만 모두 유효한 결과가 나오게 됩니다.

연구자는 Qwen의 235B 파라미터 모델을 사용해 이 현상을 시범적으로 보여 주었으며, 동일한 온도 설정으로 1,000개의 완성 결과를 생성한 뒤 80개의 고유 응답을 발견했는데, 103번째 토큰부터 결과가 달라지기 시작했습니다. 대부분의 완성 결과가 물리학자 리처드 파인만의 출생지를 "Queens, New York"으로 생성한 반면, 8개는 "New York City"로 작성했습니다.

 

기업용 AI를 위한 제안된 솔루션

 

He의 연구는 얼마나 많은 요청이 동시에 처리되는지에 상관없이 일관된 연산 순서를 유지함으로써 AI 커널을 "배치 불변(batch-invariant)"으로 만드는 것을 제안합니다. 이 접근 방식은 트랜스포머 모델의 세 가지 핵심 연산(즉, RMSNorm, 행렬 곱셈, 어텐션 메커니즘)에 대한 수정이 필요합니다.

연구실은 vLLM(오픈소스 추론 프레임워크) 위에서 실행되는 결정적 추론의 데모 코드를 공개했습니다. 초기 성능 테스트 결과, 결정적 방식은 표준 구성에 비해 약 60% 느리게 실행되는 것으로 나타났으나, 연구진은 이 구현이 속도에 맞춰 최적화되어 있지 않다고 언급했습니다. 재현 가능한 응답이 필요한 엔터프라이즈 응용 분야를 넘어, He는 이 연구가 샘플링 및 훈련 단계 간의 수치적 차이를 제거함으로써 강화학습 훈련을 개선하고, AI 모델 훈련 효율성을 높일 수 있다고 제안합니다.

 

실리콘밸리의 최신 인공지능 연구소

 

Thinking Machines Lab는 7월에 Murati가 Andreessen Horowitz가 주도한 기록적인 20억 달러 시드 투자를 발표하며 은둔 상태에서 모습을 드러냈습니다. 회사의 가치가 120억 달러로 평가된 이번 투자 라운드에는 NVIDIA, AMD, Cisco, ServiceNow 등 주요 테크 기업들이 참여했습니다.

회사의 팀은 주로 OpenAI 출신 연구원들로 구성되어 있으며, ChatGPT의 개발에 참여한 John Schulman과 OpenAI 전 연구 책임자 Barrett Zoph 등이 포함되어 있습니다. 초기 인력의 거의 3분의 2가 Murati의 전 직장 출신입니다.

2023년 11월 OpenAI의 리더십 위기 동안 잠시 임시 CEO를 맡았고, 2024년 9월에 회사를 떠난 Murati는 Thinking Machines Lab을 “여러 방식으로 당신이 자연스럽게 세상과 상호작용하는 방식에 맞춘 멀티모달 AI 구축”으로 자리매김했습니다. 회사는 앞으로 몇 달 안에 연구자와 맞춤형 모델을 개발하는 스타트업을 대상으로 하는 오픈 소스 컴포넌트가 포함된 첫 번째 제품을 출시할 계획입니다.

“우리는 과학이 공유될 때 더 발전한다고 믿습니다.”라고 회사는 공식 웹사이트를 통해 밝히며, 기술 블로그, 논문, 코드의 정기적인 공개를 약속합니다. 이는 회사가 규모가 커지고 상업적 성격이 강해지면서 점점 더 연구 공유에 폐쇄적이 되어가는 OpenAI와의 뚜렷한 대조를 이룹니다.

댓글 0
전체 1,244 / 286 페이지
이 사업은 공무원이 보안 걱정 없이 다양한 생성형 AI 서비스를 활용하도록 관련 플랫폼과 거대언어모델(LLM), 컴퓨팅 자원(GPU 등) 등을 제공하는 게 목적이다. 행안부는 오는 11월 일부 서비스를 시범 제공할 계획이다. 삼성SDS 컨소시엄에 포함된 AI 플랫폼 2종(삼성SDS 패브릭스, 네이버 하이퍼스튜디오)과 LLM 모델 6개를 선정해 우선 서비스한다. 공무원은 이들 가운데 원하는 플랫폼과 LLM을 활용, AI를 업무에 적용해볼 수 있다.-> 우리가 아는 흔한 LLM모델을 쓸 수 있다는 말인가?
1915 조회
0 추천
2025.08.20 등록
오픈AI는 2025년 8월 17일부터 챗GPT의 응답 톤을 보다 따뜻하고 친근하게 조정하는 업데이트를 적용했습니다. 이로 인해 대화가 더 자연스럽고 사용자 친화적으로 느껴집니다. 기존에는 정보 위주의 다소 딱딱한 응답이 주를 이뤘다면, 이제는 감정 표현이 더 풍부해졌습니다. 예를 들어, 이전에는 "오늘 서울 날씨는 맑음, 기온 25도입니다"라는 응답이었다면, 이제는 "서울 오늘 날씨가 정말 좋아요! 맑고 기온 25도라 나들이 가기 딱 좋겠네요!"처럼 보다 생동감 있는 답변을 제공합니다. 사용자 피드백에 따르면 대화의 자연스러움이 약 20% 향상되었습니다.PS. 그래서 그런지 자꾸 반말을 하네요...
1792 조회
0 추천
2025.08.20 등록
구글 딥마인드가 초경량 AI 모델 '젬마 3 270'(2억 7천만 매개변수)을 오픈소스로 공개했습니다. 이 모델은 휴대폰, 노트북, 웨어러블 기기 등 저전력 장치에서도 고효율로 작동하도록 설계되었습니다. 특히, 개발자 커뮤니티를 지원하기 위해 무료로 제공되는 '제미나이 CLI 깃허브 액션'과 함께, AI 코딩 협업 도구로 주목받고 있습니다. 이는 소규모 개발자나 스타트업이 AI를 쉽게 활용할 수 있게 돕는 흥미로운 움직임입니다.젬마는 간단히 사용할 수 있습니다. 사용방법은 아래와 같습니다.- 구글 딥마인드의 깃허브 저장소 또는 Hugging Face 모델 허브에서 젬마 3 270을 다운로드합니다.- Python 환경에서 pip install gemma 명령어로 설치합니다.- gemma run --model gemma-3-270m 명령어를 실행하여 모델을 사용할 수 있습니다.
1947 조회
0 추천
2025.08.20 등록
2025년 5월 25일 중국 항저우에서 세계 최초의 휴머노이드 로봇 격투 대회가 열렸습니다. 중국중앙방송총국이 주최한 이 대회에는 유니트리 G1 로봇 4대가 참가했습니다.로봇들은 키 130cm, 무게 35kg으로 인간 조종사가 리모컨으로 조작했지만, 격투 동작은 전문 격투선수로부터 학습한 AI 기술로 구현되었습니다. 손 타격 1점, 발차기 3점, 쓰러지면 5점 감점이라는 규칙으로 진행되었고, 넘어진 후 8초 내에 일어나지 못하면 패배 처리되었습니다.경기에서는 로봇들이 잽, 어퍼컷, 킥 등 다양한 격투 기술을 선보였으며, "AI Strategist"라는 로봇이 우승했습니다. 전 세계에 생중계 된 이 대회는 로봇 기술의 실용화 가능성을 보여주는 중요한 이정표로 평가 받고 있으며, 중국의 로봇 산업 발전 의지를 드러낸 행사로 해석됩니다.
1676 조회
0 추천
2025.08.19 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입