GPL의 AI 모델 전파 논쟁의 현주소
페이지 정보
본문
| AI 도구 | Gemini |
|---|---|
| 프롬프트 | Https://shujisado.org/2025/11/27/gpl-propagates-to-ai-models-trained-on-gpl-code/ 자세히 정리하고 인사이트를 추출하고 인포그래픽 생성 |
제시해 주신 아티클 (https://shujisado.org/2025/11/27/gpl-propagates-to-ai-models-trained-on-gpl-code/)의의) 내용을 자세히 정리하고 핵심 인사이트를 추출했습니다.
기사 요약: GPL의 AI 모델 전파 이론 (2025년 현재)
이 아티클은 GPL(GNU General Public License)과 같은 카피레프트(Copyleft) 라이선스가 이를 학습한 AI 모델 자체에 전파되어, 모델 전체를 동일한 라이선스로 공개해야 한다는 주장의 2025년 현재 상황을 법적 쟁점과 반론을 중심으로 분석합니다.
1. GPL 전파 이론의 정의와 현재 위치
* 이론의 핵심: AI 모델이 GPL 코드를 훈련 데이터로 사용하면, 그 모델은 GPL 코드의 **2차적 저작물(derivative work)**에 해당하므로, 모델 배포 시 GPL의 소스 코드 공개 의무 등 카피레프트 조건이 적용되어야 한다는 주장입니다.
* 현재 인식: 2021년 GitHub Copilot 출시 당시 활발하게 논의되었으나, 2025년 현재는 AI 코딩의 이점과 실용적 반론에 밀려 주류 논의는 아니지만, 법적으로 완전히 부정되지는 않은 상태입니다.
2. 이론의 존속 근거가 되는 두 가지 주요 소송
A. Doe v. GitHub (Copilot 집단 소송)
* 쟁점: GitHub, Microsoft, OpenAI가 훈련 데이터에 사용된 오픈소스 라이선스(MIT, Apache-2.0, GPL 등)의 조건(저작자 표시, 동일 라이선스 공개 의무 등)을 위반했다는 주장(계약 위반 및 DMCA 위반).
* 현황: 대부분의 부수적 청구는 기각되었으나, **"오픈소스 라이선스 위반(계약 위반)"**에 대한 청구는 여전히 유효하며, 법원은 적절한 라이선스 표시 없이 타인의 코드를 복제하는 행위를 금지하는 금지 명령을 구할 근거가 충분하다고 판단했습니다.
* 시사점: 이 소송은 모델 전체의 GPL 공개를 직접적으로 요구하는 저작권 주장은 아니나, 훈련 데이터의 라이선스를 무시하고 모델을 제공하는 행위가 불법일 수 있다는 점을 시사하며 전파 이론의 간접적 근거가 됩니다.
B. GEMA v. OpenAI (독일)
* 쟁점: AI 모델(ChatGPT)이 학습된 독일 가사(Lyrics)를 무단으로 훈련하고 출력하여 저작권을 침해했다는 소송.
* 판결 (뮌헨 지방법원 1심): 모델이 단순한 프롬프트만으로 원본 가사를 거의 그대로 재현할 수 있을 정도로 내부에 '기억'하고 있는 상태 자체를 저작권법상 "복제" 행위로 볼 수 있다고 판시했습니다.
* 시사점: 이 판결은 **"AI 모델이 훈련 데이터를 복제물로 포함할 수 있다"**는 법적 근거를 마련했다는 점에서 파급력이 큽니다. 이는 GPL 전파 이론의 핵심 전제인 '모델이 GPL 코드의 복제물/2차적 저작물인가?'에 대한 강력한 지지 근거가 될 수 있습니다. (다만, 이는 가사의 완전 복제라는 극단적인 사례에 국한되며 1심 판결입니다.)
3. 라이선스 전파 이론에 대한 반대 논리
* 저작권법적/기술적 반론:
* AI 모델은 원본 코드를 그대로 저장하는 것이 아니라 방대한 데이터의 통계적 경향을 담고 있는 것이며, 훈련 과정은 저작권법상의 TDM(Text and Data Mining) 예외로 정당화될 수 있습니다.
* 모델이 학습 데이터를 변형하여 만든 새로운 결과물은 2차적 저작물이 아니라는 주장도 있습니다.
* GPL 조문적 반론:
* GPL은 소프트웨어의 소스 코드(인간이 이해할 수 있는 형태)를 전제로 하지만, AI 모델의 파라미터를 이에 대응하는 '소스 코드'로 보기 어렵습니다.
* GPL 준수를 위해 훈련 데이터 전체를 공개해야 한다는 극단적 결론은 비현실적이며, 이는 GPL의 본래 취지(소스 코드를 수정하여 개선하는 것)와 맞지 않습니다.
* 현실적/정책적 반론:
* GPL 전파론이 강제되면 AI 개발자들이 소송 위험을 피하기 위해 GPL 코드를 훈련 데이터에서 제외하게 되어, 오히려 오픈소스 커뮤니티에 손해를 끼칠 수 있습니다.
* EU AI법이나 일본의 법률 동향 등 국제적 정책은 TDM을 광범위하게 허용하고 투명성을 확보하는 방향으로 진행되고 있으며, AI 모델에 기존 라이선스를 강제 적용하는 것은 주류가 아닙니다.
4. OSI 및 FSF의 입장
* 오픈소스 진영의 주요 단체인 **OSI(Open Source Initiative)**와 FSF(Free Software Foundation) 모두 현재의 GPL 해석만으로는 AI 시대의 '자유'를 보장하기 어렵다는 점을 인식하고 있습니다.
* 이들은 모델의 투명성과 '자유'를 보장하기 위해 새로운 프레임워크와 정의를 마련하는 중이며, 이는 기존 GPL의 규정과 전제가 AI 모델을 직접 포괄하기 어렵다는 점을 반증합니다.
핵심 인사이트 추출
* GPL 전파 논쟁의 초점 변화:
* 초기 (2021년): "모델은 2차적 저작물이므로 GPL을 따라야 한다"는 이론적 주장에 초점이 맞춰졌습니다.
* 현재 (2025년): "훈련 데이터의 라이선스를 무시하고 코드를 생성하는 행위가 계약 위반/저작권 침해인가"라는 실제 운영 및 출력에 대한 법적 책임 문제로 논의가 실질화되고 있습니다.
* 독일 판결의 중대한 의미:
* GEMA 대 OpenAI 소송의 1심 판결은 AI 모델을 단순히 '지식의 집합체'가 아니라 **'원본 저작물의 복제물을 포함할 수 있는 컨테이너'**로 간주할 수 있는 법적 근거를 처음으로 마련했습니다. 이 논리가 확산될 경우, 모델이 2차적 저작물이라는 전파 이론에 강력한 힘을 실어줄 수 있습니다. (GPL 전파 이론의 최대 잠재적 근거)
* 현실적/기술적 회의론의 우세:
* AI 모델의 근본적인 작동 방식(통계적 학습)과 GPL 라이선스 규정의 비현실성(모델 파라미터를 '소스 코드'로 볼 수 있는가, 훈련 데이터 전체 공개 의무의 현실성) 때문에, 극단적인 전파 이론은 현실에서 채택되기 어렵다는 시각이 지배적입니다.
* 자유 소프트웨어 커뮤니티의 방향성:
* OSI와 FSF가 새로운 AI 시대의 '자유' 정의를 모색하고 있다는 사실은, 기존 GPL을 AI에 억지로 적용하는 것이 최선이 아니며, AI 모델의 특성을 고려한 새로운 라이선스 및 투명성 규정이 필요하다는 합의가 형성되고 있음을 보여줍니다.
결론적으로, GPL이 AI 모델에 전파된다는 이론은 현재 진행 중인 소송(특히 독일의 '모델 내 메모리=복제' 판결)을 통해 법적 가능성을 확보했으나, 현실적인 어려움과 기술적, 정책적 반론이 강하여 모델의 투명성 확보와 훈련 데이터 라이선스 준수라는 실용적이고 절충적인 해결책으로 논의가 수렴될 가능성이 높습니다.