[AI타임즈] 한국어, AI가 잘 이해하는 언어 26개 중 22위 그쳐

xtalfi

2025.11.04 18:18

552

AI 도구	Gemini
프롬프트	Https://www.aitimes.com/news/articleView.html?idxno=203715 내용 정리

제공해주신 AI타임스 기사(Https://www.aitimes.com/news/articleView.html?idxno=203715)의 주요 내용은 다음과 같습니다.

한국어, LLM 장문 이해도 26개 언어 중 22위

마이크로소프트와 메릴랜드대학교(UMD) 연구진이 발표한 다국어 언어 모델 벤치마크 연구 '원 룰러(One ruler)' 결과, 대형언어모델(LLM)이 긴 문맥에서 한국어를 잘 이해하지 못하는 것으로 나타났습니다.

* 한국어 순위: 테스트한 26개 언어 중 한국어는 22위를 기록했습니다.

* 평가 방법: '원 룰러'는 26개 언어에 걸쳐 LLM이 긴 문맥을 얼마나 잘 이해하는지 측정하며, 검색 및 집계 작업과 긴 문맥 속에서 특정 사실을 찾는 '건초더미 속의 바늘(needle-in-a-haystack)' 테스트를 포함했습니다.

주요 결과 및 분석

* 최상위 언어:

* 학습 데이터가 가장 풍부할 것으로 알려진 영어는 64K 및 128K 장문 컨텍스트에서 **6위(83.9%)**에 그쳤습니다.

* **폴란드어(88%)**가 1위를 차지했으며, 프랑스어, 이탈리아어, 스페인어, 러시아어 등이 상위권을 차지했습니다.

* 연구진은 이 결과가 LLM이 학습 데이터가 많은 언어일수록 더 잘 이해한다는 통념이 일부는 틀릴 수 있음을 시사한다고 분석했습니다.

* 한국어의 어려움:

* 한국어보다 LLM이 읽기 어려워한 언어는 중국어(23위), 스와힐리어(24위), 타밀어(25위), 세소토어(26위) 등이었습니다.

* 연구진은 "한국어는 모든 컨텍스트 길이와 모든 모델에 걸쳐 평균 정확도를 감소시켰다"고 지적했습니다.

* 실제로 한국어 프롬프트를 영어나 폴란드어로 바꿔 입력할 경우 더 정확한 답변을 얻을 수 있는 것으로 확인되었습니다 (예: 64K 길이에서 한국어 71% \rightarrow 폴란드어 91%).

* 모델별 성능:

* 라마 3.1 8B 모델이 한국어를 가장 이해하지 못하는 모델로 꼽혔습니다 (정확도 33~37%).

* 오픈AI 모델은 74~98%로 가장 한국어 능력이 뛰어난 것으로 나타났습니다.

텍스트