Loading...

AI 뉴스

METR 연구결과 "AI 쓰면 개발이 더 느리다"

페이지 정보

작성자 JeromePark
작성일 2025.07.17 09:00
1,808 조회
0 추천
0 비추천

본문

METR은 AI 도구를 사용하는 경우 개발이 더 느려질 수 있다는 연구결과를 발표했다.

(연구결과 한글 요약 : 퍼플렉시티 사용)

https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

ec389eaae94d0fcceecc1d8611f106a73d4607d46pl2.png

이 연구는 2025년 초 AI 도구가 숙련된 오픈소스 개발자의 생산성에 미치는 영향을 실험적으로 조사한 randomized controlled trial(RCT) 결과이며. 주요 내용은 다음과 같습니다:

연구 대상 및 방법:
16명의 경험 많은 오픈소스 개발자가 본인이 여러 해 기여해온 대형 저장소(평균 22,000+ 스타, 100만 줄 이상 코드)에서 해결이 필요한 실제 이슈 246개를 무작위로 AI 도구 사용 허용 그룹과 비허용 그룹에 배정받아 처리했습니다. AI 도구는 주로 Cursor Pro와 Claude 3.5/3.7 Sonnet 모델을 사용했으며, 업무 시간과 화면 녹화를 기록하고 개발자가 스스로 소요 시간을 보고하였습니다.

핵심 결과:
AI 도구를 쓸 때 개발자들은 평균 19% 더 오래 걸려 작업 속도가 느려지는 결과가 나왔습니다. 이는 개발자들의 사전 예상(24% 속도 향상 기대)과 현저히 다르며, 심지어 체험 후에도 AI가 20% 빠르게 해줬다고 오판함을 보여줍니다.

분석 및 해석:
다양한 잠재 요인 20개를 조사하여 5개의 주요 원인이 존재할 가능성이 제기되었고, 품질 저하 없이 결과의 신뢰성을 보장하기 위해 여러 통계 검증과 반복 분석을 했습니다. AI가 실제 작업을 느리게 만든다는 이번 결과는 여러 코딩 벤치마크나 개발자들의 체감 AI 도움 효과와 모순되지만, 그 이유로는 평가 기준, 사용 조건, 작업 유형 차이, AI 도구의 학습 곡선, 높은 품질 기준 등 여러 변수가 제시됩니다.

의의 및 향후 방향:
이 연구는 AI가 현실적인 개발 환경에서 즉각적으로 생산성을 향상시키지 못했다는 점을 보여주는 ‘스냅샷’이며, 향후 AI 기능 발전에 따른 추이 분석을 계획 중입니다. 또한 AI 가속화가 AI 연구개발에 끼치는 영향과 관련해 매우 중요한 증거를 보완해 주는 연구로 평가됩니다.

한계 및 주의점:
연구 결과가 모든 개발자나 모든 개발 환경에 일반화되는 것은 아니며, AI 도구의 활용법, 숙련도, 업무 유형에 따라 효과가 다를 수 있고, AI 기술 또한 빠르게 진화하고 있음을 명시합니다.

요약하자면, 2025년 초 기준으로 AI 도구가 숙련된 오픈소스 개발자들의 작업 속도를 오히려 약 19% 느리게 했으며, 이는 AI 기술의 현실적 영향에 대한 통찰과 AI 발전의 지속적인 모니터링 필요성을 강조하는 중요한 연구입니다

--

참고로 METR은 어떤 연구단체인가

METR(모델 평가 및 위협 연구, Model Evaluation & Threat Research)

METR는 첨단 AI 시스템의 평가와 위험성 연구를 수행하는 비영리 연구기관입니다. 주요 특징은 다음과 같습니다:

설립 배경과 목적

2022년 설립된 METR는 AI 시스템이 사회에 미칠 잠재적 위험성, 특히 자율성과 고도화된 AI 시스템이 가져올 수 있는 '파국적 위험'을 사전에 평가하는 데 목적을 두고 있습니다12.

인간의 개입 없이도 복잡한 임무를 수행할 수 있는 AI(에이전트) 시스템의 능력을 연구하고, 이 기술이 AI 연구개발(R&D) 자체를 가속할 가능성과 그로 인한 새로운 위험을 중심적으로 분석합니다34.

활동과 연구 방식

실제 AI 시스템이 얼마나 ‘현실적’으로 복잡하고 장기적인 작업을 자율적으로 완료할 수 있는지 다양한 평가 실험과 벤치마크, 현장 실험(RCT) 등을 통해 측정합니다34.

AI의 성능 뿐만 아니라, AI 사용 시 발생할 수 있는 리스크 요인, 사회적 영향, 정책적 대응 방안 등도 함께 연구합니다.

주요 프로젝트로는 AI가 사람 없이도 여러 시간에 걸쳐 과업을 수행할 수 있는지 평가하는 벤치마킹, AI 거버넌스 모델 실험, 시대별 AI 성능 성장량 측정 등이 있습니다4.

위치 및 조직

METR는 미국에 기반을 둔 비영리 단체이며, 연구 구성원들은 AI 연구 및 안전성 분야의 전문 인력들로 이루어져 있습니다1.

오픈AI 등 AI 연구단체 출신 인사들도 합류해 있으며, 신뢰성, 공공성, 투명성을 중시합니다2.

기타

순수 기부금으로 운영되고, 기업이나 특정 이해관계자로부터 독립적으로 연구를 수행합니다31.

사회와 AI 기업, 정책당국이 첨단 AI의 위험 및 역량을 객관적으로 이해하는 데 필요한 과학적 평가 기준을 만드는 것을 목표로 합니다45.

METR는 이번 연구처럼, 실제 전문가 개발자들이 사용하는 AI 시스템이 현실적으로 어떤 영향을 미치는지 실험적으로 평가하는 등, 미래에 있을 AI 발전이 갖는 의미와 위험에 대해 선제적으로 조망하는 기관

댓글 0
전체 845 / 180 페이지
(퍼플렉시티로 기사 내용을 요약함)## AI의 물 사용 구조AI 시스템은 답변 한 번당 상당한 양의 **물**을 소비합니다. 대표적으로 GPT-3 기준, 짧은 대화 한 번에 약 500ml의 물이 사용됩니다[1]. 이는 데이터센터의 서버 냉각과 전기를 생산하는 발전소에서 소비되는 물 모두를 합산한 수치입니다.- 첫 번째 흐름: 서버 냉각을 위한 현장 내 물 사용- 두 번째 흐름: 전기 생산 발전소에서의 물 사용[1]## 위치, 기후, 시간의 효과데이터센터의 위치와 기후에 따라 **물 사용량**이 크게 달라집니다. 예를 들어, 시원하고 습한 아일랜드의 센터는 외부공기 냉각을 주로 사용해 물 사용이 적으며, 반면 뜨겁고 건조한 애리조나에서는 증발 냉각이 많이 적용되어 대량의 물이 소모됩니다[1]. 계절과 주야에 따라 냉각 효율과 물 소모도 변화합니다.## 새로운 냉각 기술- 서버를 비전도성 액체에 담그는 침수 냉각(immersion cooling)- 마이크로소프트의 물 비사용 냉각 설계(특수 액체 순환식 등)[1]이런 기술들은 아직 도입 단계이거나 비용, 유지보수, 기존 센터 전환의 어려움으로 널리 쓰이지 않습니다.## AI 물 발자국 계산법1. 신뢰할 만한 출처에서 모델별 전력 소모량(Wh)을 찾는다.2. 전력 1Wh 당 물 사용량(1.3~2.0ml/Wh 범위 추정치)을 적용한다.3. 두 수치를 곱한다[1].예시: GPT-5의 150~200자 응답은 19.3Wh, GPT-4o는 1.75Wh.- 보수적으로 2ml/Wh 적용 시- GPT-5: 39ml/응답- GPT-4o: 3.5ml/응답## 전체 규모 및 비교- GPT-4o 처리 기준 하루 약 880만리터, GPT-5는 약 9,750만리터의 물이 소모됩니다.- 이는 미국 일상 생활 물 사용(예: 정원 관수 340억리터/일)에 비해 상대적으로 적지만, 향후 쿨링 효율, AI 설계, 전력 구조 개선에 따라 변동 가능성이 큽니다[1].## 결론 및 대안- AI 시스템의 물 사용량은 데이터센터의 위치, 냉각 방식, 전력 구조, AI 모델의 효율성 등에 따라 크게 달라집니다.- 효율적인 서버, 재생에너지, 친환경 냉각 방식을 도입하면 물 소모를 최소화할 수 있습니다.
1254 조회
0 추천
2025.09.02 등록
AI 스크리닝 도구가 1만 5,000개 이상의 오픈 액세스 학술지를 분석하여 1,000개가 넘는 잠재적으로 문제가 있는 학술지를 찾아냈습니다. 이 도구는 논문 게재료를 받으면서도 제대로 된 동료 심사나 품질 검증을 거치지 않는 '문제성 오픈 액세스 학술지'를 식별합니다.이 도구가 찾아낸 학술지들은 기존의 어떤 감시 목록에도 없던 것들이며, 심지어 일부는 유명 출판사의 소유인 경우도 있습니다. 이 학술지들은 수십만 건의 논문을 출판했으며 수백만 번 인용되기도 했습니다. 연구에 참여한 대니얼 아쿠냐 박사는 AI가 완벽하지 않으므로 최종 결정은 전문가의 검토를 거쳐야 한다고 강조했습니다.이 AI 도구는 학술지 웹사이트와 논문 정보를 분석해 수상한 징후들을 포착합니다. 예를 들어, 논문 게재까지 걸리는 짧은 시간, 높은 자기 인용률, 편집위원들의 소속 기관, 그리고 라이선스 및 수수료 공개 여부 등을 검사합니다.오픈 액세스 학술지 디렉터리(DOAJ)의 편집 품질 담당자인 셔인 셴은 문제성 학술지의 수가 늘고 있으며 수법도 점점 더 교묘해지고 있다고 말했습니다. DOAJ는 주로 수동으로 학술지를 검토하는데, AI 도구가 이러한 검토 과정을 신속하게 할 수 있을 것으로 기대됩니다.하지만 AI 도구는 여전히 오탐(잘못된 분류)의 위험이 있습니다. 연구팀의 실험 결과, AI가 문제성 학술지를 놓치는 경우도 있었고, 반대로 정상적인 학술지를 문제성으로 오인하는 경우도 있었습니다. 또한, 셴은 비영어권 학술지나 재정 지원이 부족한 기관의 편집자들에게 불이익을 줄 수 있다는 편향성 문제를 제기했습니다. 그럼에도 불구하고, AI가 방대한 양의 검토 작업을 보조하는 유용한 역할을 할 수 있다고 평가했습니다.
1208 조회
0 추천
2025.09.02 등록
임페리얼 칼리지 런던(Imperial College London) 연구진이 개발한 AI 청진기가 심부전, 심장 판막 질환, 심방세동과 같은 세 가지 심장 질환을 단 몇 초 만에 감지할 수 있는 것으로 나타났습니다. 1816년에 발명된 기존 청진기를 21세기에 맞게 업그레이드한 이 기술은 인간의 귀로는 포착하기 어려운 미세한 심장 박동과 혈류의 차이를 분석합니다.이 장치는 환자의 가슴에 부착해 심장의 전기 신호를 기록하는 심전도(ECG)와 심장 혈류음을 동시에 측정합니다. 이렇게 수집된 정보는 클라우드로 전송되어 AI가 분석한 후 스마트폰으로 결과를 알려줍니다.영국심장재단(BHF)의 소냐 바부-나라얀 박사는 이 기술이 심장 질환 조기 진단에 큰 도움이 될 것이라고 강조했습니다. 현재 심부전 환자는 응급 상황이 되어서야 병원을 찾는 경우가 많지만, AI 청진기를 사용하면 일반 의원에서도 문제를 조기에 발견하고 환자가 적절한 치료를 받을 수 있도록 도울 수 있습니다.실제로 런던 200여 곳의 일반 의원을 대상으로 한 임상 시험 결과, AI 청진기를 사용한 환자 그룹은 그렇지 않은 그룹보다 심부전, 심방세동, 심장 판막 질환이 각각 2.33배, 3.45배, 1.92배 더 많이 진단된 것으로 나타났습니다.연구진은 AI 청진기가 의사들이 더 쉽고 빠르게 심장 질환을 찾아낼 수 있게 함으로써, 많은 환자들이 더 나은 치료를 받을 수 있는 "획기적인 전환점"이 될 것으로 기대하고 있습니다.
1241 조회
0 추천
2025.09.02 등록
미국 패스트푸드 체인 타코벨이 드라이브스루에 도입한 AI 접수원의 연이은 실수로 정책 재검토에 나섰다.주요 실수 사례로는 고객이 마운틴듀 큰 사이즈를 주문했는데 AI가 "거기에 음료는 어떤 걸로 마시겠어요?"라고 되물으며 같은 질문을 반복한 사건이 있다. 해당 영상은 인스타그램에서 2150만회 이상 조회되었다. 또 다른 고객이 장난으로 "물 1만 8000컵을 달라"고 하자 AI가 침묵하다 "어?"라고만 답하고 인간 직원이 대신 나서야 했다.타코벨은 2023년부터 미국 내 500개 이상 매장에 AI 접수원을 도입해 주문 처리 속도를 높이려 했지만 예상과 달리 문제가 속출했다. 회사 최고디지털기술책임자는 "음성 AI 구축에 어려움이 있었다"며 앞으로 AI 사용처를 신중히 검토하겠다고 밝혔다. 바쁜 시간에는 인간이 주문받는 것이 더 나을 수 있다고도 언급했다.맥도날드도 비슷한 경험을 했다. 드라이브스루 AI 접수원이 아이스크림에 베이컨을 추가하거나 치킨 너겟을 수백 달러어치 추가하는 실수를 반복해 지난해 AI 접수원을 철수했다.타코벨은 일부 실수를 제외하고 AI 접수원이 200만건의 주문을 성공적으로 처리했다고 해명했다.
1357 조회
0 추천
2025.09.02 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입