[데이터거래사 심층분석(14)] “주말이 공휴일이 아니라고요?” 데이터 속 숨은 함정, 진심으로 봐야 보인다

사회부 0 11

e_71dUd018svc558im6jc8n5l_tg3zvl.jpg

이혜선 포항공과대학교 산업공학과 교수(통계학) 특강

 

 

이혜선 포스텍 교수, ‘서울시 공유자전거 데이터’로 본 데이터 가공의 중요성 역설


[한국유통신문= 김도형 기자] “여러분이 보시는 이 데이터에는 주말이 공휴일(Holiday)이 아닌, 평일(Non-holiday)로 분류되어 있습니다. 이러면 주말과 주중의 이용 패턴을 제대로 분석할 수 있을까요?”


지난 1일, 국가공인 데이터거래사 11기 교육 현장. 이혜선 포스텍 교수가 ‘서울시 공유자전거(따릉이)’ 데이터를 화면에 띄우자 교육생들 사이에서 작은 탄식이 터져 나왔다. 당연히 휴일로 분류됐을 거라 여겼던 주말 데이터의 ‘숨겨진 함정’이 드러나는 순간이었다.


이날 이 교수는 ‘데이터 전처리 및 가공’을 주제로, 실제 데이터를 통해 어떻게 숨은 오류를 발견하고 가치를 더하는지를 생생하게 보여주었다.


■ 데이터 가공, 정답은 없다… ‘분석의 목적’이 기준


이 교수는 첫 번째 예시로 ‘서울시립과학관 관람객 현황’ 데이터를 제시했다. 코로나19로 인해 휴관했던 달의 관람객 수를 어떻게 처리할 것인지가 화두였다.


“2020년 월평균 관람객 수를 계산할 때, 휴관한 4개월을 제외하고 8개월로 나눠야 할까요, 아니면 휴관을 ‘0명’으로 처리하고 12개월로 나눠야 할까요?”


이 질문에 교육생들의 의견은 분분했다. 이 교수는 “두 가지 방법 모두 틀리지 않다”며 “중요한 것은 ‘분석의 목적’에 따라 기준을 명확히 하고, 그 기준을 반드시 명시하는 것”이라고 강조했다. 이는 데이터 가공이 단순히 기술적 처리 작업이 아니라, 분석가의 의도와 목적이 반영되는 ‘해석의 영역’임을 시사했다.


■ ‘상식’을 의심하고, ‘맥락’을 파고들어라


강의의 핵심은 ‘서울시 공유자전거’ 데이터 분석 사례였다. 이 교수는 시간대별, 계절별, 습도별 이용 현황을 시각화 자료와 함께 제시하며 교육생들의 참여를 유도했다. 출퇴근 시간인 오전 8시와 오후 6시에 이용량이 급증하고, 쾌적한 봄/가을에 수요가 몰리는 현상은 상식과 일치했다.


하지만 문제는 ‘휴일’ 데이터에서 발생했다. 상식적으로 주말에 이용량이 많을 것 같았지만, 데이터상으로는 휴일과 평일의 차이가 거의 없게 나타난 것이다.


이 교수는 “데이터를 깊이 들여다보니, 이 데이터는 법정 공휴일만 ‘Holiday’로 분류하고 토요일과 일요일은 ‘Non-holiday’로 처리했다”며, “이런 데이터로는 주말 특수성을 반영한 마케팅이나 자전거 재배치 전략을 세우기 어렵다”고 지적했다.


■ 데이터에 ‘진심’을 담을 때, 보이지 않던 가치가 보인다


이 교수는 이 사례를 통해 데이터 거래의 핵심을 짚었다. “데이터를 제공하는 생산자는 사용자가 어떤 분석을 할지 고려해, 주중/주말/공휴일을 명확히 구분해주는 ‘친절함’이 필요하다”는 것이다.


그녀는 “데이터를 진심으로 대하면 다른 사람이 보지 못하는 것이 보인다”며, “숫자 너머의 맥락을 읽고 데이터의 품질을 높이는 작업이야말로 데이터의 가치를 극대화하는 첫걸음”이라고 역설했다.


이날 강의는 데이터 가공이 단순한 기술을 넘어, 데이터에 대한 깊은 이해와 진심 어린 태도에서 비롯된다는 사실을 교육생들에게 각인시키는 귀중한 시간이었다.

 

 

b_91dUd018svc12yyzxr2u54pw_tg3zvl.jpg

 

스크린샷 2024-06-14 172010.png

 

 

 

<저작권자(c)한국유통신문. 무단전재-재배포 금지> 

 

 기사제보 및 사회적 공헌활동 홍보기사 문의: 010-3546-9865, flower_im@naver.co

검증된 모든 물건 판매 대행, 중소상공인들의 사업을 더욱 윤택하게 해주는

 

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기
  • 카카오스토리로 보내기
  • 네이버밴드로 보내기

Comments