[한국유통신문= 김도형 기자] 한국지능정보사회진흥원(NIA, 원장 황종성)이 과학기술정보통신부와 함께 ‘인공지능(AI) 데이터 품질관리 가이드라인 v3.5’를 공식 발간했다. 이번 가이드라인은 다중양식(멀티모달) 데이터, 합성데이터 등 고품질 인공지능 데이터를 위한 품질관리 프레임워크와 기준을 구체적으로 제시하며, 생성형 AI 시대에 맞춘 실질적 지원책으로 주목받고 있다.
AI 데이터 품질관리, 왜 중요할까?
AI 기술의 핵심은 데이터에 있다. 데이터 품질이 낮을 경우, AI 모델의 성능 저하와 신뢰도 하락 등 다양한 문제가 발생한다. 특히 최근 언어모델(LLM), 멀티모달 데이터(텍스트·음성·동영상 등), 합성데이터 등 다양한 형태의 데이터가 등장하면서, 데이터 품질 관리의 중요성은 더욱 커졌다.
이에 따라 NIA는 2021년 인공지능 학습용 데이터 품질관리 가이드라인 v1.0을 시작으로, 기술 발전에 맞춰 매년 가이드라인을 고도화해왔다. 2024년 발간된 v3.1은 6만 건 이상 다운로드되며 공공·민간에서 널리 활용됐다.
v3.5, 무엇이 달라졌나?
가이드라인 v3.5는 2024년 ‘초거대AI 확산 생태계 조성사업’의 경험을 바탕으로, 최신 AI 기술과 산업 변화를 반영해 고도화됐다. 총 3권으로 구성된 이번 가이드라인은 다음과 같다:
1권: 인공지능 데이터 품질관리 프레임워크
2권: 데이터 구축 방법론 및 오류 대응 전략 실무사례
3권: 생성형 인공지능 데이터에 특화된 품질관리 방법
특히, 언어모델(LLM)뿐 아니라 멀티모달 데이터, 합성데이터 등 생성형 AI에 맞춘 신규 지표와 구축 방법론을 별도 제시해, 빠르게 변화하는 AI 기술 동향에 유연하게 대응할 수 있도록 했다.
이번 가이드라인은 AI허브 및 NIA 누리집에서 누구나 내려받아 활용할 수 있으며, 권별로도 별도 제공해 현장 실무자가 업무와 관리 범위에 따라 편리하게 참고할 수 있도록 했다. 또한, 데이터 구성의 ‘잘된 사례 vs 부족한 사례’ 비교 분석과 체크리스트 제공 등으로 현장 중심의 데이터 품질관리에 실질적인 도움을 줄 것으로 기대된다.
황종성 원장 “데이터 품질, AI의 생명”
진흥원 황종성 원장은 “인공지능 기술의 핵심은 데이터이며, 인공지능의 생명은 데이터 품질관리에 있다”며, “빠르게 발전하는 인공지능 기술에 대응하기 위해 고품질 데이터 생태계 기반이 조성될 수 있도록 지속적으로 가이드라인과 기준을 고도화하겠다”고 밝혔다.
NIA의 ‘AI 데이터 품질관리 가이드라인 v3.5’는 생성형 AI 시대에 맞춘 실질적 기준과 실무 지원책을 제공한다. 데이터 품질관리 체계를 강화함으로써, AI 산업의 신뢰성과 경쟁력 제고에 크게 기여할 것으로 전망된다.
<저작권자(c)한국유통신문. 무단전재-재배포 금지>
기사제보 및 사회적 공헌활동 홍보기사 문의: 010-3546-9865, flower_im@naver.co
검증된 모든 물건 판매 대행, 중소상공인들의 사업을 더욱 윤택하게 해주는