Loading...

AI 뉴스

METR 연구결과 "AI 쓰면 개발이 더 느리다"

페이지 정보

작성자 JeromePark
작성일 07.17 09:00
37 조회
0 추천
0 비추천

본문

METR은 AI 도구를 사용하는 경우 개발이 더 느려질 수 있다는 연구결과를 발표했다.

(연구결과 한글 요약 : 퍼플렉시티 사용)

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

ec389eaae94d0fcceecc1d8611f106a73d4607d46pl2.png

이 연구는 2025년 초 AI 도구가 숙련된 오픈소스 개발자의 생산성에 미치는 영향을 실험적으로 조사한 randomized controlled trial(RCT) 결과이며. 주요 내용은 다음과 같습니다:

연구 대상 및 방법:
16명의 경험 많은 오픈소스 개발자가 본인이 여러 해 기여해온 대형 저장소(평균 22,000+ 스타, 100만 줄 이상 코드)에서 해결이 필요한 실제 이슈 246개를 무작위로 AI 도구 사용 허용 그룹과 비허용 그룹에 배정받아 처리했습니다. AI 도구는 주로 Cursor Pro와 Claude 3.5/3.7 Sonnet 모델을 사용했으며, 업무 시간과 화면 녹화를 기록하고 개발자가 스스로 소요 시간을 보고하였습니다.

핵심 결과:
AI 도구를 쓸 때 개발자들은 평균 19% 더 오래 걸려 작업 속도가 느려지는 결과가 나왔습니다. 이는 개발자들의 사전 예상(24% 속도 향상 기대)과 현저히 다르며, 심지어 체험 후에도 AI가 20% 빠르게 해줬다고 오판함을 보여줍니다.

분석 및 해석:
다양한 잠재 요인 20개를 조사하여 5개의 주요 원인이 존재할 가능성이 제기되었고, 품질 저하 없이 결과의 신뢰성을 보장하기 위해 여러 통계 검증과 반복 분석을 했습니다. AI가 실제 작업을 느리게 만든다는 이번 결과는 여러 코딩 벤치마크나 개발자들의 체감 AI 도움 효과와 모순되지만, 그 이유로는 평가 기준, 사용 조건, 작업 유형 차이, AI 도구의 학습 곡선, 높은 품질 기준 등 여러 변수가 제시됩니다.

의의 및 향후 방향:
이 연구는 AI가 현실적인 개발 환경에서 즉각적으로 생산성을 향상시키지 못했다는 점을 보여주는 ‘스냅샷’이며, 향후 AI 기능 발전에 따른 추이 분석을 계획 중입니다. 또한 AI 가속화가 AI 연구개발에 끼치는 영향과 관련해 매우 중요한 증거를 보완해 주는 연구로 평가됩니다.

한계 및 주의점:
연구 결과가 모든 개발자나 모든 개발 환경에 일반화되는 것은 아니며, AI 도구의 활용법, 숙련도, 업무 유형에 따라 효과가 다를 수 있고, AI 기술 또한 빠르게 진화하고 있음을 명시합니다.

요약하자면, 2025년 초 기준으로 AI 도구가 숙련된 오픈소스 개발자들의 작업 속도를 오히려 약 19% 느리게 했으며, 이는 AI 기술의 현실적 영향에 대한 통찰과 AI 발전의 지속적인 모니터링 필요성을 강조하는 중요한 연구입니다

--

참고로 METR은 어떤 연구단체인가

METR(모델 평가 및 위협 연구, Model Evaluation & Threat Research)

METR는 첨단 AI 시스템의 평가와 위험성 연구를 수행하는 비영리 연구기관입니다. 주요 특징은 다음과 같습니다:

설립 배경과 목적

2022년 설립된 METR는 AI 시스템이 사회에 미칠 잠재적 위험성, 특히 자율성과 고도화된 AI 시스템이 가져올 수 있는 '파국적 위험'을 사전에 평가하는 데 목적을 두고 있습니다12.

인간의 개입 없이도 복잡한 임무를 수행할 수 있는 AI(에이전트) 시스템의 능력을 연구하고, 이 기술이 AI 연구개발(R&D) 자체를 가속할 가능성과 그로 인한 새로운 위험을 중심적으로 분석합니다34.

활동과 연구 방식

실제 AI 시스템이 얼마나 ‘현실적’으로 복잡하고 장기적인 작업을 자율적으로 완료할 수 있는지 다양한 평가 실험과 벤치마크, 현장 실험(RCT) 등을 통해 측정합니다34.

AI의 성능 뿐만 아니라, AI 사용 시 발생할 수 있는 리스크 요인, 사회적 영향, 정책적 대응 방안 등도 함께 연구합니다.

주요 프로젝트로는 AI가 사람 없이도 여러 시간에 걸쳐 과업을 수행할 수 있는지 평가하는 벤치마킹, AI 거버넌스 모델 실험, 시대별 AI 성능 성장량 측정 등이 있습니다4.

위치 및 조직

METR는 미국에 기반을 둔 비영리 단체이며, 연구 구성원들은 AI 연구 및 안전성 분야의 전문 인력들로 이루어져 있습니다1.

오픈AI 등 AI 연구단체 출신 인사들도 합류해 있으며, 신뢰성, 공공성, 투명성을 중시합니다2.

기타

순수 기부금으로 운영되고, 기업이나 특정 이해관계자로부터 독립적으로 연구를 수행합니다31.

사회와 AI 기업, 정책당국이 첨단 AI의 위험 및 역량을 객관적으로 이해하는 데 필요한 과학적 평가 기준을 만드는 것을 목표로 합니다45.

METR는 이번 연구처럼, 실제 전문가 개발자들이 사용하는 AI 시스템이 현실적으로 어떤 영향을 미치는지 실험적으로 평가하는 등, 미래에 있을 AI 발전이 갖는 의미와 위험에 대해 선제적으로 조망하는 기관

댓글 0
전체 51 / 5 페이지
최근 Johns Hopkins를 비롯한 미국 연구진이 AI 기반 자율수술 로봇을 통해 의미 있는 실험 결과를 공개했습니다. 이 로봇은 실제 외과 의사들의 수술 영상과 수많은 대화 데이터를 활용해 ‘모방 학습’ 훈련을 받았다고 합니다. 그 결과, 돼지의 담낭을 완전 자율적으로 제거하는 데 성공했다고 밝혔습니다. 전체 절차는 인간 외과의와 유사한 17단계로 구성되어 있고, 단순한 도구 교체를 제외한 모든 과정이 로봇에 의해 자율적으로 이뤄졌다고 합니다. 수술 과정에서는 예기치 못한 해부학적 변화나 조명, 시각 환경이 바뀌는 상황에도 스스로 경로를 수정하며 임무를 완수했다고 전해집니다. 또한 실험 중에는 본인의 실수를 스스로 감지하고, 평균 여섯 번에 걸쳐 자발적으로 오류를 수정하는 모습도 관찰됐다고 합니다. 수술 중 음성 명령에 따라 동작을 즉각적으로 수행하거나 수정할 수 있어, 실제 의료 현장에서 외과의의 보조 역할도 자연스럽게 수행할 수 있을 정도로 정교한 반응성을 보였다고 합니다. 시스템 구조는 ChatGPT와 유사한 대형 언어모델이 전략적 의사결정 계층에 적용되고, 하위에는 실제 움직임 제어를 위한 별도의 모듈이 결합된 하이브리드 형태로 설계되어 있다고 설명합니다. 이를 통해 복잡한 판단과 빠른 현장 대응이 모두 가능해졌다고 합니다. 이번 연구 결과만 놓고 봐도, 인간 전문의와 비슷한 수준의 수술 정밀도와 안정성을 확보한 것으로 평가된다고 합니다. 아직 사람을 대상으로 하는 라이브 수술에는 적용되지 않았지만, 향후 몇 년 내 동물실험 단계를 거쳐 10년 이내에 인간 임상 단계에 진입할 수 있을 것으로 전망한다고 합니다. 특히 외과 전문의가 부족한 지역이나 고난도 수술의 표준화 측면에서 AI 로봇이 가져올 의료 접근성 혁신과 환자 안전성 강화, 전반적인 의료 시스템 효율화에 대한 기대도 커지고 있다고 합니다. 한편, 윤리적·법적 책임 소재, 시스템 오작동이나 비상 상황 시 대처 문제 등 앞으로 해결해야 할 과제도 남아 있다고 합니다. 그럼에도 불구하고 AI가 의료 현장에서 점차 실전성을 갖추기 시작했다는 점에서, 기술적·임상적으로 모두 큰 의미가 있다는 평가가 이어집니다. 이러한 흐름이 앞으로 의료 AI 대중화의 신호탄이 될 수 있을지 주목되고 있습니다.
56 조회
0 추천
07.14 등록
Google은 AI 코딩 신생기업 Windsurf의 기술을 라이선스하고, Windsurf의 CEO Varun Mohan, co-founder Douglas Chen 및 임직원이 구글로 이직할 섯이라고 하네요. 이 딜의 금액은 24억 달러. 이 회사는 앞서 OpenAI도 인수하려고 30억달러 딜을 진행하고 있었는데 Microsoft 가 딜을 틀어버렸다고. https://techcrunch.com/2025/07/11/windsurfs-ceo-goes-to-google-openais-acquisition-falls-apart/
72 조회
0 추천
07.13 등록
웨이모와 테슬라 자율주행 로봇택시의 비교에 대해 영상이 올라온 것이 있는데요. 이 영상을 ChatGPT 에게 한국어로 요약해 달라고 했습니다. 요약 이 영상은 로보택시(무인 자율주행 택시) 분야에서 Waymo와 Tesla의 현재 상황과 향후 전망을 비교하며, 누가 승자가 될 수 있을지 분석합니다. 1. 현재 상황 비교 Tesla는 지금의 자율주행 역량이, 약 5년 전에 Waymo가 가진 수준과 유사하다고 평가됩니다. 하지만 Tesla가 단시간(하루나 1년) 안에 그 간격을 줄이기엔 현실적으로 어렵다는 점도 지적됩니다 2. 테슬라가 더 발전하려면 안전관리자 제거 현재 테슬라의 테스트 차량에는 운전 담당 인력이 탑승해 있는데, 이들을 완전 배제하고 완전 자율주행 수준의 테스트로 전환해야 함 운영 규모 확장 Waymo 수준의 운행 대수와 지역(예: 오스틴) 커버리지를 갖춰야 함 서비스 오픈 제한된 테스트가 아닌, 일반 승객을 대상으로 한 상용 서비스로서 개방해야 함 데이터 투명성 운행 및 안전 관련 모든 데이터를 투명하게 공개해야 신뢰도와 평가가 가능해짐 Templeton은 “오스틴에서 Tesla의 운행 규모와 안전 수준이 Waymo와 비슷해지기를 기대하며, 올해 말(12월)까지 그 단계에 도달하길 바란다”고 언급했습니다
65 조회
0 추천
07.11 등록
두바이에서 AI 셰프가 운영하는 세계 최초의 레스토랑이 오는 2025년 9월 버즈 칼리파 인근에 문을 연다. 이 레스토랑의 이름은 'WOOHOO'이며, 메뉴 기획부터 식당 서비스 방식, 전체적인 분위기까지 AI 셰프인 'Chef Aiman'이 담당할 예정. Chef Aiman은 대형 언어모델(LLM) 기반의 인공지능으로, 흔히 버려지는 육류 트리밍과 같은 재료를 창의적으로 활용하는 등 지속 가능한 메뉴 구성을 목표로 하고 있다. AI가 제안한 레시피는 유명 셰프인 레이프 오트만(Reif Othman)을 포함한 인간 셰프들이 최종적으로 맛을 보고 보완한 뒤 완성된다. 이 식당의 운영진은 이 AI 시스템을 앞으로 전 세계 다른 레스토랑에도 라이선스 형태로 제공할 계획을 세우고 있다. 맛은 있을지, 가격은 또 얼마나 비쌀지...기대됩니다.
67 조회
0 추천
07.11 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입