[데이터거래사 심층분석(18)] 영화 리뷰 속 숨은 민심, ‘워드 클라우드’로 한눈에 보다

사회부 0 15

d_d1dUd018svc1un7x5wd66y07_tg3zvl.jpg

 

f_01dUd018svcd0ovcmzrlv1_tg3zvl.jpg


 

권두선 강사, 구글 코랩 활용한 텍스트 마이닝부터 장바구니 분석까지… 고급 분석 기법 선보여


[서울=한국유통신문] 김도형 기자= “수많은 영화 리뷰 속에서 관객들이 가장 중요하게 생각하는 키워드는 무엇일까요? ‘워드 클라우드’는 그 답을 직관적으로 보여주는 강력한 도구입니다.”


지난 1일, 국가공인 데이터거래사 11기 교육의 마지막 여정을 이끈 권두선 강사는 ‘워드 클라우드’와 ‘구매 패턴 분석’이라는 고급 데이터 분석 기법을 선보이며 교육의 대미를 장식했다. 특히 그는 로컬 환경의 제약을 넘어 클라우드 기반의 ‘구글 코랩(Colab)’을 활용하는 모습을 보여주며, 데이터 분석의 새로운 지평을 열었다.


■ 개발 환경의 한계를 넘다, ‘구글 코랩’으로의 초대


권 강사는 텍스트 형태소 분석에 필요한 특정 라이브러리(KoNLPy)가 로컬 PC 환경에서 설치 오류를 일으키는 상황을 제시하며, 이에 대한 해결책으로 ‘구글 코랩’을 소개했다.


그는 “VS Code에서 자바(JDK) 설치 문제로 어려움을 겪을 때, 모든 환경이 미리 구축된 구글 코랩을 활용하면 손쉽게 분석을 이어갈 수 있다”며, 클라우드 드라이브에 파일을 올리고 경로를 지정해 코드를 실행하는 전 과정을 시연했다. 이는 교육생들에게 특정 개발 환경에 얽매이지 않고 유연하게 문제를 해결하는 데이터 분석가의 실전 노하우를 전수하는 순간이었다.


■ 600개 리뷰에서 찾아낸 핵심 키워드: 아이맥스, 1편, 시간


본격적인 ‘워드 클라우드’ 분석은 600개의 영화 리뷰 텍스트를 대상으로 진행됐다. 권 강사는 텍스트에서 명사만을 추출하고, 불필요한 단어를 제거하는 등 정교한 전처리 과정을 거쳤다.


분석 결과, ‘아이맥스(IMAX)’, ‘1편’, ‘시간’, ‘사막’ 등의 단어가 가장 크게 표시되며 관객들의 주요 관심사를 드러냈다. 그는 “이를 통해 ‘이 영화는 아이맥스 관람이 필수적이며, 1편과의 연관성이 높고, 긴 러닝타임이 주요 특징’이라는 핵심 인사이트를 얻을 수 있다”고 해석했다. 나아가 특정 이미지 모양 안에 워드 클라우드를 생성하는 시각적 기법까지 선보이며 분석의 재미를 더했다.


■ “맥주를 사면 기저귀가 팔린다?”… 연관 규칙 분석의 진실


강의의 마지막은 ‘장바구니 분석’으로 알려진 ‘연관 규칙 분석’이었다. 그는 “데이터 마이닝의 고전적인 명제인 ‘맥주와 기저귀’의 관계는 사실이 아니다”라고 말하며, 실제 패스트푸드점의 판매 데이터를 통해 진짜 연관성을 찾아 나섰다.


분석 결과, ‘치킨 볼’이 가장 인기 있는 단일 메뉴였지만, 흥미로운 연관성은 다른 곳에서 발견됐다. ‘소프트 드링크’를 주문한 고객이 ‘칩과 살사 소스’나 ‘치킨 브리또’를 함께 구매하는 경향이 높게 나타난 것이다. 권 강사는 “단순 판매량이 아닌 지지도, 신뢰도, 향상도라는 지표를 함께 봐야만 유의미한 패턴을 발견할 수 있다”며, 데이터 기반의 교차 판매(Cross-selling) 전략 수립 가능성을 제시했다.


3시간에 걸친 권두선 강사의 열정적인 강의는 데이터 분석의 전 과정을 아우르는 종합선물세트와 같았다. 환경 설정부터 고급 분석 기법까지, 그의 실전적인 가이드는 예비 데이터거래사들이 앞으로 마주할 데이터의 바다를 헤쳐나갈 든든한 나침반이 되어주었다.

 

 

 

스크린샷 2024-06-14 172010.png

 

 

 

<저작권자(c)한국유통신문. 무단전재-재배포 금지> 

 

 기사제보 및 사회적 공헌활동 홍보기사 문의: 010-3546-9865, flower_im@naver.co

검증된 모든 물건 판매 대행, 중소상공인들의 사업을 더욱 윤택하게 해주는

 

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기
  • 카카오스토리로 보내기
  • 카카오톡으로 보내기
  • 네이버밴드로 보내기

Comments