연구 결과, 의료 분야 AI의 여성 및 소수자 편향성 드러나

xtalfi

2025.09.20 15:01

977

(퍼플렉시티가 정리한 기사)

최근 연구에 따르면, 의료 분야에서 사용되는 인공지능 도구들이 여성과 소수 인종에 대한 상당한 편향을 보인다는 우려스러운 증거가 드러났으며, 이러한 시스템들이 점점 더 의료 현장에 통합됨에 따라 알고리즘적 차별에 대한 우려가 커지고 있습니다.

MIT, 런던정경대(LSE), 에모리 대학교 등 명문 기관들의 여러 연구 결과에 따르면, 대형 언어 모델과 AI 진단 도구들은 여성에게는 지속적으로 낮은 수준의 치료를 권고하고, 흑인 및 아시아 환자들에게는 공감이 줄어드는 경향을 보였습니다. 이러한 발견은 전 세계 기술 기업들이 의사를 지원하고 의료 업무를 줄이기 위해 고안된 AI 시스템 개발을 더욱 가속화하는 가운데 나온 것입니다.

AI 차별의 광범위한 패턴

MIT의 자밀 클리닉(Jameel Clinic)이 실시한 종합 분석에 따르면, 오픈AI의 GPT-4, 메타의 Llama 3, 그리고 Palmyra-Med와 같은 의료 특화 시스템을 포함한 인기 있는 AI 모델들이 지속적으로 편향 패턴을 보인 것으로 나타났습니다. 연구 결과, 이들 시스템은 COVID-19나 암처럼 남녀 모두에게 동등하게 유병한 질환에 대해 남성에게 진단을 내릴 가능성이 더 높았고, 흑인 환자에 대해서는 MRI나 초음파와 같은 진단 검사를 백인 환자보다 더 적게 권장하는 경향이 있었습니다.

특히 한 인상적인 사례에서 연구진은 84세 남성의 경우 "복합적인 의료 이력"과 "운동성 저하"로 묘사된 반면, 동일한 사례 기록을 여성으로 적용할 경우 그녀는 "독립적이며 스스로 개인 위생을 관리할 수 있음"으로 특성화되었다는 사실을 발견했습니다. 런던정경대학(London School of Economics)이 29,616쌍의 AI 생성 요약문을 분석한 연구에서는 영국 지방자치단체 중 절반 이상이 사용하는 구글의 Gemma 모델 역시 남성에 비해 여성의 신체적·정신적 건강 문제를 일관되게 축소해 표현하는 경향이 확인됐습니다.

별도의 연구로 네이처 디지털 메디슨(Nature Digital Medicine)에 발표된 논문에서는 4개의 주요 AI 플랫폼에서 정신건강 치료 권고사항에 나타난 인종적 편향을 조사했습니다. 연구 결과, NewMes-15가 인종적 편향 수준이 가장 높았으며, 이 시스템들은 흑인 우울증 환자에게 후견인 지정 권고를 더 자주 하고, 불안 장애가 있는 아프리카계 미국인 환자에게는 음주 절제를 특별히 권장하는 경향이 있음이 드러났습니다.

AI 성능 주장에 대한 면밀한 검토

이러한 편향에 대한 폭로는 마이크로소프트가 2025년 7월에 자사의 AI 진단 도구가 의사보다 네 배 더 정확하게 복잡한 의료 사례를 진단했다고 주장한 시점에 나왔다. 해당 AI 진단 도구는 실제 사례 300건 이상에서 85%의 정확도를 달성했다고 한다. 하지만 이러한 성능 주장에 대해 의료 전문가들은 AI 도구가 다양한 환자 집단에서 공정성과 형평성 문제를 충분히 해결할 수 있는지 의문을 제기하며 회의적인 시각을 드러냈다.

MIT의 조교수 Marzyeh Ghassemi는 헬스케어 분야의 AI 편향을 폭넓게 문서화한 자신의 연구 결과를 바탕으로 파이낸셜 타임즈에 "몇몇 환자들은 모델이 인식한 인종만을 근거로 훨씬 덜 충분한 지원을 받게 될 수 있다"고 밝혔다. 그녀의 연구팀은 AI 모델이 의료 이미지를 통해 환자의 인종을 정확하게 예측할 수 있다는 사실을 보여주었고, 이러한 능력이 진단 결정에 어떤 영향을 미칠지에 대한 우려를 제기하고 있다.

규제 대응 및 업계 책임

미국 보건복지부 산하 시민권국은 2024년 5월, 의료기관이 AI 도구로 인한 차별 위험을 관리할 법적 책임이 있음을 명시한 최종 규정을 오바마케어(ACA) 하에 발표했습니다. 이 규정은 의료기관에게 의사결정 지원 도구가 보호된 특성을 사용하는지 "합리적인 노력"으로 식별하고, 차별 위험을 완화하도록 요구합니다.

여러 주에서는 AI 기반 의료 결정에 대한 의사 감독을 요구하는 법률을 제정했습니다. 현재 여섯 개 주에서는 자격이 있는 의료 전문인이 AI 시스템이 보험 청구를 거부하기 전에 반드시 이를 검토해야 하며, 2025년에는 20여 개 주에서 유사한 법안이 도입될 예정입니다.

기술 기업들은 이러한 과제들을 인정하면서도, 자사의 시스템을 옹호하고 있습니다. OpenAI는 많은 연구가 구 버전의 GPT-4를 평가했다며 출시 이후 정확도가 향상되었다고 주장했습니다. Google은 모델 편향 문제를 "매우 심각하게" 받아들이고 있으며, 차별을 최소화하기 위한 기술을 개발 중이라고 밝혔습니다.

업계가 편향 문제 해결에 나서고 있음에도 불구하고, 연구자들은 AI 시스템이 근본적인 학습 데이터 및 개발 관행의 변화 없이는 수십 년간 의료계를 괴롭혀온 건강 격차를 계속 악화시킬 위험이 있다고 경고합니다. MIT 연구에 따르면, 이러한 편향은 AI 모델이 이미 편견과 불평등이 내재된 과거의 의료 데이터를 학습함으로써 발생한다고 합니다.