AI 뉴스

METR 연구결과 "AI 쓰면 개발이 더 느리다"

페이지 정보

작성자 JeromePark
작성일 2025.07.17 09:00
4,013 조회
0 추천
0 비추천

본문

METR은 AI 도구를 사용하는 경우 개발이 더 느려질 수 있다는 연구결과를 발표했다.

(연구결과 한글 요약 : 퍼플렉시티 사용)

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

ec389eaae94d0fcceecc1d8611f106a73d4607d46pl2.png

이 연구는 2025년 초 AI 도구가 숙련된 오픈소스 개발자의 생산성에 미치는 영향을 실험적으로 조사한 randomized controlled trial(RCT) 결과이며. 주요 내용은 다음과 같습니다:

연구 대상 및 방법:
16명의 경험 많은 오픈소스 개발자가 본인이 여러 해 기여해온 대형 저장소(평균 22,000+ 스타, 100만 줄 이상 코드)에서 해결이 필요한 실제 이슈 246개를 무작위로 AI 도구 사용 허용 그룹과 비허용 그룹에 배정받아 처리했습니다. AI 도구는 주로 Cursor Pro와 Claude 3.5/3.7 Sonnet 모델을 사용했으며, 업무 시간과 화면 녹화를 기록하고 개발자가 스스로 소요 시간을 보고하였습니다.

핵심 결과:
AI 도구를 쓸 때 개발자들은 평균 19% 더 오래 걸려 작업 속도가 느려지는 결과가 나왔습니다. 이는 개발자들의 사전 예상(24% 속도 향상 기대)과 현저히 다르며, 심지어 체험 후에도 AI가 20% 빠르게 해줬다고 오판함을 보여줍니다.

분석 및 해석:
다양한 잠재 요인 20개를 조사하여 5개의 주요 원인이 존재할 가능성이 제기되었고, 품질 저하 없이 결과의 신뢰성을 보장하기 위해 여러 통계 검증과 반복 분석을 했습니다. AI가 실제 작업을 느리게 만든다는 이번 결과는 여러 코딩 벤치마크나 개발자들의 체감 AI 도움 효과와 모순되지만, 그 이유로는 평가 기준, 사용 조건, 작업 유형 차이, AI 도구의 학습 곡선, 높은 품질 기준 등 여러 변수가 제시됩니다.

의의 및 향후 방향:
이 연구는 AI가 현실적인 개발 환경에서 즉각적으로 생산성을 향상시키지 못했다는 점을 보여주는 ‘스냅샷’이며, 향후 AI 기능 발전에 따른 추이 분석을 계획 중입니다. 또한 AI 가속화가 AI 연구개발에 끼치는 영향과 관련해 매우 중요한 증거를 보완해 주는 연구로 평가됩니다.

한계 및 주의점:
연구 결과가 모든 개발자나 모든 개발 환경에 일반화되는 것은 아니며, AI 도구의 활용법, 숙련도, 업무 유형에 따라 효과가 다를 수 있고, AI 기술 또한 빠르게 진화하고 있음을 명시합니다.

요약하자면, 2025년 초 기준으로 AI 도구가 숙련된 오픈소스 개발자들의 작업 속도를 오히려 약 19% 느리게 했으며, 이는 AI 기술의 현실적 영향에 대한 통찰과 AI 발전의 지속적인 모니터링 필요성을 강조하는 중요한 연구입니다

--

참고로 METR은 어떤 연구단체인가

METR(모델 평가 및 위협 연구, Model Evaluation & Threat Research)

METR는 첨단 AI 시스템의 평가와 위험성 연구를 수행하는 비영리 연구기관입니다. 주요 특징은 다음과 같습니다:

설립 배경과 목적

2022년 설립된 METR는 AI 시스템이 사회에 미칠 잠재적 위험성, 특히 자율성과 고도화된 AI 시스템이 가져올 수 있는 '파국적 위험'을 사전에 평가하는 데 목적을 두고 있습니다12.

인간의 개입 없이도 복잡한 임무를 수행할 수 있는 AI(에이전트) 시스템의 능력을 연구하고, 이 기술이 AI 연구개발(R&D) 자체를 가속할 가능성과 그로 인한 새로운 위험을 중심적으로 분석합니다34.

활동과 연구 방식

실제 AI 시스템이 얼마나 ‘현실적’으로 복잡하고 장기적인 작업을 자율적으로 완료할 수 있는지 다양한 평가 실험과 벤치마크, 현장 실험(RCT) 등을 통해 측정합니다34.

AI의 성능 뿐만 아니라, AI 사용 시 발생할 수 있는 리스크 요인, 사회적 영향, 정책적 대응 방안 등도 함께 연구합니다.

주요 프로젝트로는 AI가 사람 없이도 여러 시간에 걸쳐 과업을 수행할 수 있는지 평가하는 벤치마킹, AI 거버넌스 모델 실험, 시대별 AI 성능 성장량 측정 등이 있습니다4.

위치 및 조직

METR는 미국에 기반을 둔 비영리 단체이며, 연구 구성원들은 AI 연구 및 안전성 분야의 전문 인력들로 이루어져 있습니다1.

오픈AI 등 AI 연구단체 출신 인사들도 합류해 있으며, 신뢰성, 공공성, 투명성을 중시합니다2.

기타

순수 기부금으로 운영되고, 기업이나 특정 이해관계자로부터 독립적으로 연구를 수행합니다31.

사회와 AI 기업, 정책당국이 첨단 AI의 위험 및 역량을 객관적으로 이해하는 데 필요한 과학적 평가 기준을 만드는 것을 목표로 합니다45.

METR는 이번 연구처럼, 실제 전문가 개발자들이 사용하는 AI 시스템이 현실적으로 어떤 영향을 미치는지 실험적으로 평가하는 등, 미래에 있을 AI 발전이 갖는 의미와 위험에 대해 선제적으로 조망하는 기관

댓글 0
전체 1,366 / 339 페이지
구글 딥마인드가 초경량 AI 모델 '젬마 3 270'(2억 7천만 매개변수)을 오픈소스로 공개했습니다. 이 모델은 휴대폰, 노트북, 웨어러블 기기 등 저전력 장치에서도 고효율로 작동하도록 설계되었습니다. 특히, 개발자 커뮤니티를 지원하기 위해 무료로 제공되는 '제미나이 CLI 깃허브 액션'과 함께, AI 코딩 협업 도구로 주목받고 있습니다. 이는 소규모 개발자나 스타트업이 AI를 쉽게 활용할 수 있게 돕는 흥미로운 움직임입니다.젬마는 간단히 사용할 수 있습니다. 사용방법은 아래와 같습니다.- 구글 딥마인드의 깃허브 저장소 또는 Hugging Face 모델 허브에서 젬마 3 270을 다운로드합니다.- Python 환경에서 pip install gemma 명령어로 설치합니다.- gemma run --model gemma-3-270m 명령어를 실행하여 모델을 사용할 수 있습니다.
3613 조회
0 추천
2025.08.20 등록
2025년 5월 25일 중국 항저우에서 세계 최초의 휴머노이드 로봇 격투 대회가 열렸습니다. 중국중앙방송총국이 주최한 이 대회에는 유니트리 G1 로봇 4대가 참가했습니다.로봇들은 키 130cm, 무게 35kg으로 인간 조종사가 리모컨으로 조작했지만, 격투 동작은 전문 격투선수로부터 학습한 AI 기술로 구현되었습니다. 손 타격 1점, 발차기 3점, 쓰러지면 5점 감점이라는 규칙으로 진행되었고, 넘어진 후 8초 내에 일어나지 못하면 패배 처리되었습니다.경기에서는 로봇들이 잽, 어퍼컷, 킥 등 다양한 격투 기술을 선보였으며, "AI Strategist"라는 로봇이 우승했습니다. 전 세계에 생중계 된 이 대회는 로봇 기술의 실용화 가능성을 보여주는 중요한 이정표로 평가 받고 있으며, 중국의 로봇 산업 발전 의지를 드러낸 행사로 해석됩니다.
3139 조회
0 추천
2025.08.19 등록
애플은 올해 WWDC에서 Xcode의 "Intelligence" 기능에 챗GPT(ChatGPT)와 다양한 LLM(대형 언어모델) API 연동을 예고한 데 이어, Anthropic의 Claude도 Xcode에 네이티브로 통합할 계획을 갖고 있음이 확인되었다.9to5mac 매체에 따르면 Xcode 26 베타 7 분석 결과, Claude Sonnet 4.0 및 Claude Opus 4의 지원 코드와 Anthropic 계정 관련 언급이 발견되었다고. 그동안 챗GPT만 Xcode와 1차로 통합이 되어 있었으나, 이제 Claude도 유사한 수준의 네이티브 지원을 받을 기반이 마련된 것으로 예상된다.Xcode에 연동되는 Swift Assist라는 기능은 2024년 WWDC에서 최초로 공개된 애플의 AI 기반 코딩 도우미였으며, GitHub Copilot과 유사한 서비스였다. 하지만 실제로 출시되지는 않았고, 이제 Xcode 26에서 기능이 더 확장된 형태로 새롭게 선보이게 되며,. 공식 명칭도 더 이상 Swift Assist가 아니지만, 애플 자체 모델과 챗GPT, 그리고 다양한 서드파티 LLM을 네이티브로 지원하게 된다.애플은 2025년 5월경부터 Claude 기반 Xcode를 내부적으로 테스트해왔던 것으로 알려졌다. 그동안 Swift Assist 확장설이나 챗GPT만 지원한다는 루머가 돌았지만, 이번 발견으로 Claude를 선호하는 개발자들에게 좋은 소식이 될 것으로 보인다.
3577 조회
0 추천
2025.08.19 등록
Claude Opus 4 및 4.1, 소수의 대화 종료 기능 도입안트로픽은 최근 Claude Opus 4와 4.1에 소비자용 챗 인터페이스에서 특정 극단적 상황에 한해 대화를 종료할 수 있는 기능을 도입했으며, 사용자로부터 학대적인 상호작용이 반복될 때 사용된다고 밝혔다.특히 이 기능은 잠재적인 AI 복지 연구의 일환으로 도입되었다고 하며, 사용자가 스스로 채팅 종료를 요청할 때, 혹은 Claude가 반복적인 거절에도 불구하고 생산적인 대화로 전환이 불가능하다고 판단할 때에만 최후의 수단으로써 사용된다고 한다.따라서 대부분의 일반 사용자는 평소에는 해당 기능을 경험하지 않을 전망이다.Claude가 대화 종료를 선택하면 해당 채팅에서는 추가 메시지를 보낼 수 없으나, 다른 대화에는 영향을 주지 않는다.사용자는 여전히 이전 메시지를 수정하거나 새로운 선택지를 만들어 대화를 이어갈 수 있다. 이 기능은 계속 개선될 예정이고 피드백을 받고 있다고 회사는 밝혔다.
3482 조회
0 추천
2025.08.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입