이혜선 포항공과대학교 산업공학과 교수(통계학) 특강
이혜선 포스텍 교수, 데이터거래사 교육서 ‘데이터 정제’의 중요성 역설
[한국유통신문 김도형 기자] “여러분이 보는 데이터는 항상 정직할까요? 원숭이 키와 몸무게 데이터에 ‘킹콩’의 데이터가 딱 하나 섞이는 순간, 상관관계는 0.53에서 0.94로 치솟습니다. 기계는 이 완벽한 수치에 속지만, 사람은 속지 않아야 합니다.”
지난 1일, 제11기 국가공인 데이터거래사 교육 2일차 강단에 선 이혜선 포스텍(POSTECH) 교수의 한마디에 교육생들의 시선이 집중됐다. ‘데이터 전처리 및 가공’을 주제로 한 그의 강의는, 숫자의 함정에 빠지지 않고 데이터의 ‘진짜 얼굴’을 보는 법에 대한 깊이 있는 통찰을 제시했다.
■ 데이터에 진심인 전문가, 현장의 경험을 녹여내다
강의에 앞서 이 교수는 자신의 경험을 소개하며 “데이터에 진심인 사람”임을 강조했다. 미국 국립여론연구센터(NORC)에서 사회조사 데이터를 생산한 경험부터, 포스코 등 국내 유수 기업의 제조 데이터, 그리고 UC샌디에이고 의대에서 알츠하이머 치료제 임상 데이터를 분석한 경험까지, 그의 이력은 데이터가 활용되는 다양한 산업 현장을 꿰뚫고 있었다.
그는 “첫 직장에서 데이터를 다루는 법을 3년간 월급을 받으며 배웠다”며, 데이터의 생산부터 가공, 분석에 이르는 전 과정에 대한 깊은 이해와 애정을 드러냈다. 이러한 경험은 그의 강의에 강력한 현실감과 설득력을 더했다.
■ 상식을 벗어난 데이터, 의심에서 분석은 시작된다
이 교수는 데이터 정제의 중요성을 설명하기 위해 여러 실제 사례를 제시했다.
혈압 데이터: 정상 범위를 아득히 넘어선 ‘수축기 400mmHg’라는 극단적 이상치.
NBA 농구 데이터: 한 경기 자유투 횟수가 평균의 5배에 달하는 비정상적인 기록.
제조업 측정 데이터: 동일한 기계라도 측정하는 사람과 시간에 따라 미세하게 달라지는 측정값.
이러한 예시들은 우리가 접하는 데이터가 항상 깨끗하거나 완벽하지 않으며, 분석에 앞서 데이터의 품질을 의심하고 확인하는 ‘정제’ 과정이 필수적임을 명확히 보여주었다.
■ ‘킹콩 데이터’의 함정… 시각화로 거짓을 간파하다
이날 강의의 백미는 ‘원숭이 키와 몸무게’ 데이터 예시였다. 평범한 원숭이 데이터만으로는 키와 몸무게의 상관관계가 0.53으로 비교적 낮게 나타났다. 하지만 여기에 체격이 월등히 큰 ‘킹콩’의 데이터가 단 하나 추가되자, 상관계수는 0.94로 급상승하며 완벽에 가까운 선형 관계를 보이는 것처럼 왜곡됐다.
이 교수는 “컴퓨터는 주어진 데이터로 그저 계산할 뿐이다. 이 결과를 그대로 믿고 ‘키로 몸무게를 완벽히 예측할 수 있다’고 보고한다면 큰일이 난다”며, “데이터를 시각화해서 분포를 직접 눈으로 확인하는 것만으로도 이러한 치명적인 오류를 막을 수 있다”고 역설했다.
그의 강의는 데이터 분석이 단순히 복잡한 알고리즘을 적용하는 행위가 아님을 분명히 했다. 그것은 데이터에 숨겨진 오류와 함정을 찾아내는 ‘탐정’의 자세로, 진실에 더 가까이 다가가는 과정이라는 중요한 메시지를 남겼다.
<저작권자(c)한국유통신문. 무단전재-재배포 금지>
기사제보 및 사회적 공헌활동 홍보기사 문의: 010-3546-9865, flower_im@naver.co
검증된 모든 물건 판매 대행, 중소상공인들의 사업을 더욱 윤택하게 해주는