데이터 시각화(태블로)/3단원

3-7. 워드 클라우드 : 단어 분석 중심의 시각화

자라나는지수새싹 2023. 2. 20. 12:46

* 워드 클라우드란?

다양한 단어가 구름(cloud) 모양으로 떠있는 차트로, 중요도에 따라 크기가 다르게 표시된다.

 

* 상황별 워드 클라우드 사용법

 

1. 워드 클라우드는 서술형 데이터를 분석할 때 효과적이다.

 

수치나 범주형으로 된 정량적인 데이터를 주로 분석하지만,

설문 응답이나 영화 리뷰처럼 의견을 글로 표현하는 정성적인 데이터를 분석해야 하는 경우,

고객의 서비스 만족도를 알아보기 위해 여러 기업, 기관에서 주로 사용하는 데이터 분석 방법이다.

 

영화 리뷰 데이터(정성적 데이터)의 경우, 단어의 빈도수를 다음과 같이 카운트하여, 빈도수가 클수록 워드 클라우드에서 크게 표현하고자 한다.

리뷰 속 단어에서 불필요한 어미, 조사 등은 제거하고 의미 있는 단어만 추출하기 위해

워드 클라우드를 사용하려면 "자연어 데이터 전처리 작업" 또한 진행해야 한다.

위의 빈도수 데이터를 워드 클라우드로 나타내면 다음과 같이 표현된다.

 

* 자연어 데이터 전처리 작업을 할 때 고려할 내용

1) 분석할 필요가 없는 단어(불용어 (어미, 조사 등))는 제거하여야 한다.

2) 단어의 최소 빈도수를 지정하여야 한다. (3회 이상 반복된 단어만 보여줄 것인지 등..)

3) 비어 있는 값(NULL)을 제거하여야 한다.

4) 추출할 자연어의 길이를 정하여야 한다.

 

2. 워드 클라우드는 사용 빈도수가 높은 핵심 단어를 강조할 때 유용하다.

대통령 연설에서 사용된 2글자 이상의 단어의 빈도수를 워드 클라우드로 표현하면, 다음과 같이 빈도수가 높은 단어는 크게 표시된다.

 

 

* 워드 클라우드를 사용할 때 알아두면 좋은 TIP

1. 단어가 많다면 빈도수가 낮은 단어는 제외하도록 한다.

링컨 대통령 연설에 사용된 모든 단어를 하나의 워드 클라우드에 담은 모습, 2회 이상 반복된 단어만 보여주는 워드 클라우드 모습

왼쪽 그림처럼, 모든 단어를 하나의 워드 클라우드에 담으려고 하면 혼란스럽고, 강조하려는 단어를 파악하기가 어렵다.

따라서, 1번만 언급된 단어는 제외하고, 오른쪽 그림과 같이 2회 이상 반복된 단어만 보여주려고 하면,

단어의 중요도를 더욱 명확하게 전달할 수 있게 된다.

 

2. 의미가 없는 단어(불용어)는 제거하도록 한다.

불용어를 제거한 워드 클라우드

사용 빈도수는 높지만, 분석하는데 크게 도움되지 않는 불용어(조사, 어미, 접속부사 등)는 분석에 있어서 제거해야 한다.

대표적으로, '-은', '-는', '-이', '-가', '여기', '그러나', '-에게' ,'-를' 등이 있다.

불용어가 제거되지 않으면, 데이터 정제가 제대로 이루어지지 않았다는 인상을 심어주게 되어, 신뢰성을 떨어뜨리게 된다.

 

* <실습> 뉴스에서 가장 많이 언급되는 단어는 무엇인가?

1단계 : 데이터 준비하기 (한국언론진흥재단 뉴스 토픽.csv)

교재 실습에서 분석한 데이터는 2012년 데이터로, 무려 지금으로부터 11년전 데이터이다... 경상수지가 흑자였고, 북한의 정권이 바뀌던 시절이다. 필자나 현재(2023년) 대학생인 친구들은 대부분 초등학생 ~ 갓중딩 이었던 시절이다.

 

2단계 : 데이터로 알고 싶은 내용 질문하기

한국 언론진흥재단 뉴스 빅 데이터 뉴스 토픽 데이터로 떠올려볼 수 있는 질문

  • 2012년에 많이 언급된 토픽은?
  • 시간의 흐름에 따라 토픽의 빈도수에 차이가 있는가?

 

3단계 : 워드 클라우드 만들기(실습)

1. 2012년에 많이 언급된 토픽은?

워드 클라우드 만들기(실습), 중간에 트리맵 차트를 워드 클라우드로 바꾸는 과정은 오랜 시간이 소요되어, 일시정지 하였습니다.

 

2. 2012년 시간의 흐름에 따라 토픽의 빈도수는 어떻게 차이가 있는가?

 

월별 토픽의 빈도수를 워드 클라우드로 알아보는 과정 (심지어 정권이 이명박->박근혜로 교체되던 시절이다...)

 

4단계 : 질문에 답해보기

2012년 뉴스 기사에 언급된 토픽 워드 클라우드

 

Q1. 2012년에 많이 언급된 토픽은 무엇인가?

A1. 후보, 민주, 대선, 대통령과 같은 대선 관련 단어가 많이 등장하므로, 18대 대통령 선거가 있었던 해임을 알 수 있다.

 

Q2. 시간의 흐름에 따라 토픽의 빈도수에 차이가 있는가?

A2. 1월에는 봉투, 민주 등의 단어로, 봉투와 관련된 사건을 짐작할 수 있고,

2월에 민주, 공천이라는 단어로, 대선을 앞두고 공천을 시작한 것을 알 수 있다. 그리스 경제 문제가 있기도 하였다.