데이터가 엉망이면, AI도 엉망이다. (Garbage in, Garbage out)

바이브입니다만

2025.10.14 17:34

377

많은 문서들은 AI 학습이나 자동화 시스템에 투입되기 어려운 형태로 작성됩니다.

대표적인 비효율적 포맷: (저희 회사에서 쓰는 구위키....)

표 안의 표
복잡한 병합 셀 (merge cell)
비표준 서식 / 수동 정렬 / 숨겨진 필드

이런 구조는 LLM, OCR, Markdown 파서 등이 데이터를 제대로 인식하지 못하게 합니다.

표준화가 안되면

데이터 셋 전환 시 정보 손실
자동 변환 불가능 → 인력 투입과 시간 낭비
학습 데이터 품질 저하 → AI 모델 성능 저하

AI 프로젝트에서 가장 많은 시간을 차지하는 단계는 ‘모델 개발’이 아닙니다.
Cloudfactory의 분석에 따르면 다음과 같습니다:

즉, 전체 프로젝트의 80%가 데이터 정제 및 라벨링 등 전처리 작업에 쓰이고,
모델링 등 “AI다운 일”은 고작 20% 남짓입니다.즉 AI가 투입되어야 하는 20%에 비용이 들어가야합니다.
AI 비용을 줄이는 가장 효율적인 방법은 사전 예방적 문서 설계입니다.

좋은 문서 포맷의 원칙

표는 ‘단일 계층 구조’로 유지 (nested table 금지)
병합 셀 대신 “별도 열 추가”로 계층 표현
텍스트 기반 구조(Markdown, CSV, JSON 등)로 작성

“회사가 바뀌기 싫으면, 모 부장처럼 표 안에 표를 써라.”
최근 회사를 방문한 송길영저자님이 마지막 시간에 언급한 멘트로 글을 마무리합니다.

https://it.chosun.com/news/articleView.html?idxno=2023092144095