KAIST, 연합학습 AI의 '지역 과적합' 성능 저하 해결

xtalfi

10.15 18:27

(퍼플렉시티가 정리한 기사)

한국과학기술원(KAIST) 연구진이 개인정보를 전혀 공유하지 않으면서도 여러 기관에서 활용 가능한 연합학습 AI의 고질적 성능 저하 문제를 근본적으로 해결하는 혁신적 기술을 개발했다고 15일 발표했다.

박찬영 KAIST 산업및시스템공학과 교수 연구팀은 '합성데이터' 방식을 도입해 연합학습에서 발생하는 '지역 과적합' 문제를 완전히 극복했다고 밝혔다. 이번 연구는 김성원 데이터사이언스대학원 학생이 제1저자로 참여했으며, 지난 4월 AI 분야 최고 권위 학술대회인 '국제표현학습학회(ICLR) 2025'에서 상위 1.8% 우수 논문에만 주어지는 구두 발표 논문으로 채택됐다.

연합학습의 구조적 한계 돌파

연합학습은 병원의 환자 진료기록이나 은행의 금융 데이터처럼 개인정보를 한곳에 모으기 어려운 상황에서 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 AI를 학습할 수 있는 방식이다.

하지만 기존 연합학습은 공동으로 완성한 AI 모델을 각 기관이 자체 환경에 맞게 최적화하는 과정에서 심각한 문제가 발생했다. 기존의 폭넓은 지식이 희석되면서 AI가 특정 기관의 데이터 특성에만 과도하게 적응하는 '지역 과적합' 현상이 나타났기 때문이다.

예를 들어 여러 은행이 공동 대출 심사 AI를 구축한 후 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행하면, 해당 은행의 AI는 대기업 심사에서는 강점을 보이지만 개인이나 스타트업 고객 심사에서는 성능이 현저히 떨어지는 문제가 발생했다.

합성데이터로 전문성과 범용성 동시 확보

연구팀이 개발한 해결책은 각 기관의 데이터에서 핵심적이고 대표적인 특징만을 추출해 개인정보를 포함하지 않는 가상의 '합성데이터'를 생성하고, 이를 파인튜닝 과정에 적용하는 방식이다.

이를 통해 각 기관의 AI는 개인정보 공유 없이 자신의 데이터에 맞춰 전문성을 강화하면서도, 공동학습으로 얻은 폭넓은 시야와 일반화 성능을 동시에 유지할 수 있게 됐다.

연구 결과, 이 방법은 의료·금융 등 데이터 보안이 중요한 분야에서 특히 효과적인 것으로 확인됐다. 또한 소셜미디어나 전자상거래처럼 새로운 사용자와 상품이 지속적으로 추가되는 환경에서도 안정적인 성능을 발휘했다. 새로운 기관이 협력에 참여하거나 데이터 특성이 급격히 변하더라도 AI가 혼란 없이 안정적으로 성능을 유지할 수 있는 것으로 나타났다.

박찬영 교수는 "이번 연구는 데이터 프라이버시를 지키면서도 각 기관의 AI가 전문성과 범용성을 동시에 보장하는 새로운 길을 열었다"며 "의료 AI, 금융 사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에서 큰 도움이 될 것"이라고 말했다.