AI 뉴스

KAIST, 연합학습 AI의 '지역 과적합' 성능 저하 해결

페이지 정보

작성자 xtalfi
작성일 10.15 18:27
325 조회
0 추천
0 비추천

본문

2233827337_fvjov9.jpg

(퍼플렉시티가 정리한 기사)

한국과학기술원(KAIST) 연구진이 개인정보를 전혀 공유하지 않으면서도 여러 기관에서 활용 가능한 연합학습 AI의 고질적 성능 저하 문제를 근본적으로 해결하는 혁신적 기술을 개발했다고 15일 발표했다.

박찬영 KAIST 산업및시스템공학과 교수 연구팀은 '합성데이터' 방식을 도입해 연합학습에서 발생하는 '지역 과적합' 문제를 완전히 극복했다고 밝혔다. 이번 연구는 김성원 데이터사이언스대학원 학생이 제1저자로 참여했으며, 지난 4월 AI 분야 최고 권위 학술대회인 '국제표현학습학회(ICLR) 2025'에서 상위 1.8% 우수 논문에만 주어지는 구두 발표 논문으로 채택됐다.

 

연합학습의 구조적 한계 돌파

 

연합학습은 병원의 환자 진료기록이나 은행의 금융 데이터처럼 개인정보를 한곳에 모으기 어려운 상황에서 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 AI를 학습할 수 있는 방식이다.

하지만 기존 연합학습은 공동으로 완성한 AI 모델을 각 기관이 자체 환경에 맞게 최적화하는 과정에서 심각한 문제가 발생했다. 기존의 폭넓은 지식이 희석되면서 AI가 특정 기관의 데이터 특성에만 과도하게 적응하는 '지역 과적합' 현상이 나타났기 때문이다.

예를 들어 여러 은행이 공동 대출 심사 AI를 구축한 후 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행하면, 해당 은행의 AI는 대기업 심사에서는 강점을 보이지만 개인이나 스타트업 고객 심사에서는 성능이 현저히 떨어지는 문제가 발생했다.

 

합성데이터로 전문성과 범용성 동시 확보

 

연구팀이 개발한 해결책은 각 기관의 데이터에서 핵심적이고 대표적인 특징만을 추출해 개인정보를 포함하지 않는 가상의 '합성데이터'를 생성하고, 이를 파인튜닝 과정에 적용하는 방식이다.

이를 통해 각 기관의 AI는 개인정보 공유 없이 자신의 데이터에 맞춰 전문성을 강화하면서도, 공동학습으로 얻은 폭넓은 시야와 일반화 성능을 동시에 유지할 수 있게 됐다.

연구 결과, 이 방법은 의료·금융 등 데이터 보안이 중요한 분야에서 특히 효과적인 것으로 확인됐다. 또한 소셜미디어나 전자상거래처럼 새로운 사용자와 상품이 지속적으로 추가되는 환경에서도 안정적인 성능을 발휘했다. 새로운 기관이 협력에 참여하거나 데이터 특성이 급격히 변하더라도 AI가 혼란 없이 안정적으로 성능을 유지할 수 있는 것으로 나타났다.

박찬영 교수는 "이번 연구는 데이터 프라이버시를 지키면서도 각 기관의 AI가 전문성과 범용성을 동시에 보장하는 새로운 길을 열었다"며 "의료 AI, 금융 사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에서 큰 도움이 될 것"이라고 말했다.

댓글 0
전체 549 / 25 페이지
(퍼플렉시티가 정리한 기사)OpenAI는 이론물리학자 Alex Lupsasca를 영입하며 야심찬 "OpenAI for Science" 이니셔티브를 공식 출범했으며, 이는 Google DeepMind와의 경쟁이 심화되는 가운데 AI 기반 과학적 발견 분야로의 대담한 진출을 의미합니다.수상 경력이 있는 블랙홀 연구자이자 Vanderbilt University 교수인 Lupsasca는 10월 16일 Kevin Weil 부사장이 이끄는 새로운 과학 부문의 첫 번째 학술 연구원으로 OpenAI에 합류했습니다. 이 물리학자의 영입은 AI를 여러 분야에 걸쳐 발견을 가속화할 수 있는 "차세대 위대한 과학 도구"로 자리매김하려는 OpenAI의 결연한 의지를 보여줍니다.AI가 몇 분 만에 복잡한 물리학 문제를 해결하다이번 채용은 Lupsasca가 AI의 과학적 잠재력에 대한 관점에서 극적인 변화를 경험한 후에 이루어졌습니다. 이 연구원은 GPT-5 Pro가 AI의 연구 능력에 대한 "그의 생각을 완전히 바꿔놓았다"고 밝혔으며, 일반적으로 재능 있는 대학원생들이 며칠이 걸릴 복잡한 천체물리학 문제를 약 30분 만에 해결했다고 전했습니다.​한 가지 놀라운 사례로, GPT-5 Pro는 Lupsasca의 블랙홀 연구에서 중심 대칭성을 성공적으로 재발견했는데, 이는 그가 원래 개발하는 데 상당히 더 오랜 시간이 걸렸던 작업이었습니다. "저는 AI가 연구 최전선에서 의미 있게 기여하기까지 오랜 시간이 걸릴 것이라고 믿었습니다"라고 Lupsasca는 말했습니다.​Weil은 GPT-5가 이미 수학, 양자 이론, 생물학 전반에 걸쳐 "제한적인 새로운 과학 연구"를 수행할 수 있다고 강조하면서, "오늘 당신이 사용하고 있는 AI 모델은 당신이 남은 인생 동안 사용하게 될 AI 모델 중 최악의 모델"이라고 언급했습니다.딥마인드 경쟁에 대한 전략적 대응OpenAI의 과학 이니셔티브는 AI 기반 과학적 돌파구에서 Google DeepMind의 확고한 리더십에 대한 직접적인 도전을 나타냅니다. DeepMind의 AlphaFold는 단백질 구조 예측에 혁명을 일으켰으며, 이 회사는 최근 핵융합 과학 연구를 가속화하기 위한 파트너십을 발표했습니다.​이러한 시기는 전략적으로 보이는데, 두 회사 모두 2025년 내내 수학 경진대회에서 놀라운 성과를 달성해 왔기 때문입니다. OpenAI는 AtCoder 코딩 대회에서 2위를, 국제수학올림피아드에서 금메달을 확보했으며, 두 조직 모두 주요 프로그래밍 대회에서 우승을 차지했습니다.​이러한 경쟁은 개별 성과를 넘어 과학적 발견에서 AI의 역할에 대한 근본적인 질문으로 확장됩니다. DeepMind가 단백질 접힘 및 핵융합 연구와 같은 특정 과학 응용 분야에 집중하는 반면, OpenAI의 보다 광범위한 플랫폼 접근 방식은 여러 분야의 연구자들이 가속화된 발견을 위해 활용할 수 있는 도구를 만드는 것을 목표로 합니다.
207 조회
0 추천
10.18 등록
(퍼플렉시티가 정리한 기사)구글 리서치는 10월 16일에 딥소매틱(DeepSomatic)을 공개했습니다. 이 오픈소스 AI 모델은 암을 유발하는 유전적 돌연변이의 탐지 능력을 획기적으로 향상시키며, 전 세계적으로 정밀 의료의 발전을 가속할 잠재력을 지니고 있습니다. UC 산타크루즈 게놈 연구소와 아동 자선 병원(Children's Mercy Hospital)과 협력하여 개발된 이 도구는 합성곱 신경망(convolutional neural networks)을 활용해 암세포 내 유전적 변이를 전례 없는 정확도로 식별합니다.모든 주요 시퀀싱 기술에서 뛰어난 성능DeepSomatic은 벤치마크 테스트에서 기존 암 분석 도구들을 현저히 능가했으며, Illumina 시퀀싱 데이터에서 삽입 및 결실(indel)을 감지하는 데 있어 90%의 F1 점수를 달성했습니다(현재 방법은 80%). Pacific Biosciences의 롱리드 시퀀싱 데이터에서는 향상이 더욱 두드러졌고, DeepSomatic은 80% 이상의 점수를 기록한 반면 기존 도구들은 50% 미만의 점수를 받았습니다.​Nature Biotechnology에 게재된 이 AI 모델은 암 세포주에서 329,011개의 체세포 변이를 분석하고, 소아 백혈병이나 교모세포종과 같은 공격적인 뇌종양 등 난이도가 높은 사례에서 유전적 돌연변이를 성공적으로 식별했습니다. 소아 백혈병 샘플에서 DeepSomatic은 연구자가 이미 알고 있던 변이 외에 10개의 이전에 발견되지 않은 돌연변이를 추가로 발견했습니다.포괄적인 오픈소스 공개가 전 세계 연구를 가속화하다Google Research는 DeepSomatic 모델과 고품질 학습 데이터셋인 CASTLE(Cancer Standards Long-read Evaluation)을 GitHub에서 오픈 소스 라이선스 하에 공개했습니다. CASTLE 데이터셋은 세 가지 주요 플랫폼인 Illumina, PacBio, Oxford Nanopore에서 얻은 전체 유전체 시퀀싱 데이터를 사용하여 유방 및 폐암 샘플에서 얻은 6쌍의 종양-정상 세포주 쌍을 결합하고 있습니다.​“암은 근본적으로 유전 질환이며, 올바른 돌연변이 식별은 정확한 치료를 제공하는 데 매우 중요합니다.”라고 Google 연구진은 밝혔습니다. 이 툴은 학습 데이터셋을 넘어서 초기 연구되지 않은 암 유형에도 적용되어 다양한 연구 및 임상 응용에 대한 다재다능함을 보여줍니다. DeepSomatic은 종양-정상 샘플 쌍 분석뿐만 아니라 건강한 조직 비교가 불가능한 혈액암 등 어려운 종양 단독 케이스도 분석할 수 있습니다.​
200 조회
0 추천
10.18 등록
(퍼플렉시티가 정리한 기사)Microsoft는 어제 인공지능이 사이버 위협 환경을 극적으로 확대시켰으며, 회사는 현재 점점 더 정교해지는 공격에 맞서기 위해 매일 100조 개 이상의 보안 신호를 처리하고 있다고 밝혔다. 이 기술 대기업의 2025년 디지털 방어 보고서는 AI가 피싱 공격을 4.5배 더 효과적으로 만들었으며, 이는 연구자들이 "지난 1년간 피싱에서 가장 중요한 변화"라고 부르는 것을 보여준다.​10월 16일에 발표된 보고서에 따르면, AI로 강화된 피싱 이메일은 54%의 클릭률을 달성한 반면, 전통적인 피싱 시도는 단지 12%의 클릭률을 기록했다. Microsoft의 연구 결과에 따르면, 이러한 효과성의 극적인 증가는 피싱의 수익성을 최대 50배까지 높일 가능성이 있다.국가 행위자들이 AI를 무기화하다외국 적대 세력들이 미국을 대상으로 한 사이버 공격에 AI 사용을 급격히 확대하고 있습니다. 마이크로소프트는 2025년 7월 한 달 동안 외국 정부가 생성한 AI 기반 가짜 콘텐츠 사례를 200건 이상 기록했으며, 이는 2024년 7월보다 두 배 이상 많고 2023년보다는 10배 이상 증가한 수치입니다.​러시아, 중국, 이란, 북한은 대규모 언어 모델을 악의적인 작전을 강화하기 위한 "생산성 도구"로 활용하고 있습니다. 중국은 산업 전반에 걸쳐 광범위한 스파이 활동을 지속하는 동시에 새로 공개된 취약점을 무기화하는 속도가 빨라지고 있습니다. 러시아 국가 연계 행위자들은 우크라이나를 넘어 NATO 국가의 중소기업을 표적으로 삼는 것으로 확대되었으며, 이는 작년보다 25% 증가한 수치입니다.금전적 동기가 대부분의 공격을 주도한다보고서에 따르면 알려진 동기를 가진 사이버 공격의 52% 이상이 현재 갈취나 랜섬웨어를 통한 금전적 이익에 의해 추진되고 있으며, 첩보 활동에 초점을 맞춘 공격은 전체 사건의 단 4%만을 차지하고 있다. 마이크로소프트가 작년에 조사한 사이버 사건의 80%에서 공격자들은 정보 수집보다는 주로 이익을 위해 데이터를 훔치려고 했다.​신원 기반 공격은 2025년 상반기에 32% 급증했으며, 97% 이상이 유출된 자격 증명을 사용한 대규모 추측 시도를 통해 비밀번호를 표적으로 삼았다. 그러나 마이크로소프트는 피싱에 저항하는 다단계 인증이 이러한 공격의 99% 이상을 차단할 수 있다고 언급했다.​미국은 여전히 주요 표적으로 남아 있으며, 전 세계 모든 사이버 공격의 23.7%를 차지하고, 그 다음으로 영국이 5.9%, 독일이 3.4%를 차지한다. 병원, 학교, 정부 기관을 포함한 핵심 인프라는 제한된 사이버 보안 예산과 사건 대응 능력으로 인해 높은 위험에 직면해 있다.​마이크로소프트의 분석은 기존 보안 조치가 AI로 강화된 위협에 대해 부적절하다는 것이 입증됨에 따라, 조직들이 사이버 보안을 단순히 IT 문제가 아닌 "핵심 전략적 우선순위"로 취급해야 한다는 긴급한 필요성을 강조하고 있다.
202 조회
0 추천
10.18 등록
(퍼플렉시티가 정리한 기사)Amazon은 워싱턴주에 건설할 Cascade Advanced Energy Facility의 상세 계획과 건축 렌더링을 공개하며, 이 거대 기술 기업의 야심찬 원자력 에너지 프로그램에서 중요한 이정표를 세웠습니다. 10월 15일에 공개된 이 시설은 총 960메가와트 용량의 소형 모듈형 원자로 12기를 갖추게 되며, 이는 약 770,000가구에 전력을 공급할 수 있는 규모입니다.​이 프로젝트는 1년 전 발표된 Amazon의 원래 원자력 계획을 3배로 확대한 것으로, 인공지능 및 클라우드 컴퓨팅 운영을 위한 무탄소 에너지원에 대한 회사의 증가하는 의지를 보여줍니다. 건설은 이번 10년대 말까지 시작될 것으로 예상되며, 운영은 2030년대에 개시될 예정입니다.기술 산업의 원자력 전환아마존의 발표는 주요 기술 기업들의 전례 없는 원자력 투자 물결 속에서 나왔습니다. Microsoft는 Three Mile Island의 1호기 원자로를 재가동하기 위한 20년 계약을 체결했으며, Google은 첨단 원자로 개발업체들과의 파트너십을 통해 새로운 원자력 시설에 자금을 지원하기로 약속했습니다. Meta는 최근 일리노이 시설에서 1.1기가와트를 공급받기 위해 Constellation Energy와 20년 원자력 전력 계약을 체결했습니다.​원자력 투자 급증은 2030년까지 미국 전체 전력의 최대 9%를 소비할 수 있는 AI 데이터 센터의 막대한 에너지 수요를 반영합니다. "이 프로젝트는 단순히 새로운 기술에 관한 것이 아닙니다. 성장하는 디지털 세계를 지원할 신뢰할 수 있는 무탄소 에너지원을 만드는 것입니다"라고 아마존의 최고 지속가능성 책임자인 Kara Hurst가 말했습니다.모듈형 기술과 경제적 영향Cascade 시설은 X-energy의 Xe-100 고온 가스 냉각 원자로를 활용할 예정이며, 각 원자로는 80메가와트의 전력을 생산합니다. 기가와트 용량을 위해 1평방마일 이상을 차지할 수 있는 전통적인 원자력 발전소와 달리, 모듈식 설계로 인해 960메가와트 시설을 단 몇 개의 도시 블록 내에 배치할 수 있습니다.​이 프로젝트는 건설 최성수기 동안 1,000개 이상의 건설 일자리를 창출하고, 완전 가동 시 100개 이상의 정규직 일자리를 만들 것입니다. Amazon은 X-energy에 5억 달러를 투자했으며, Climate Pledge Fund를 통해 초기 타당성 조사, 허가 및 라이선스 단계에 대한 자금 지원을 약속했습니다.​워싱턴주 리치랜드에 위치한 Energy Northwest의 Columbia 발전소 근처에 위치한 이 시설은 각각 4개의 원자로로 구성된 3단계로 건설될 예정입니다. Amazon은 초기 320메가와트 단계에서 전력을 구매할 권리를 가지며, 추가 용량은 지역 전력 회사에서 이용할 수 있습니다.
199 조회
0 추천
10.18 등록
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색
회원가입