* 워드 클라우드란?
다양한 단어가 구름(cloud) 모양으로 떠있는 차트로, 중요도에 따라 크기가 다르게 표시된다.
* 상황별 워드 클라우드 사용법
1. 워드 클라우드는 서술형 데이터를 분석할 때 효과적이다.
수치나 범주형으로 된 정량적인 데이터를 주로 분석하지만,
설문 응답이나 영화 리뷰처럼 의견을 글로 표현하는 정성적인 데이터를 분석해야 하는 경우,
고객의 서비스 만족도를 알아보기 위해 여러 기업, 기관에서 주로 사용하는 데이터 분석 방법이다.
리뷰 속 단어에서 불필요한 어미, 조사 등은 제거하고 의미 있는 단어만 추출하기 위해
워드 클라우드를 사용하려면 "자연어 데이터 전처리 작업" 또한 진행해야 한다.
* 자연어 데이터 전처리 작업을 할 때 고려할 내용
1) 분석할 필요가 없는 단어(불용어 (어미, 조사 등))는 제거하여야 한다.
2) 단어의 최소 빈도수를 지정하여야 한다. (3회 이상 반복된 단어만 보여줄 것인지 등..)
3) 비어 있는 값(NULL)을 제거하여야 한다.
4) 추출할 자연어의 길이를 정하여야 한다.
2. 워드 클라우드는 사용 빈도수가 높은 핵심 단어를 강조할 때 유용하다.
* 워드 클라우드를 사용할 때 알아두면 좋은 TIP
1. 단어가 많다면 빈도수가 낮은 단어는 제외하도록 한다.
왼쪽 그림처럼, 모든 단어를 하나의 워드 클라우드에 담으려고 하면 혼란스럽고, 강조하려는 단어를 파악하기가 어렵다.
따라서, 1번만 언급된 단어는 제외하고, 오른쪽 그림과 같이 2회 이상 반복된 단어만 보여주려고 하면,
단어의 중요도를 더욱 명확하게 전달할 수 있게 된다.
2. 의미가 없는 단어(불용어)는 제거하도록 한다.
사용 빈도수는 높지만, 분석하는데 크게 도움되지 않는 불용어(조사, 어미, 접속부사 등)는 분석에 있어서 제거해야 한다.
대표적으로, '-은', '-는', '-이', '-가', '여기', '그러나', '-에게' ,'-를' 등이 있다.
불용어가 제거되지 않으면, 데이터 정제가 제대로 이루어지지 않았다는 인상을 심어주게 되어, 신뢰성을 떨어뜨리게 된다.
* <실습> 뉴스에서 가장 많이 언급되는 단어는 무엇인가?
1단계 : 데이터 준비하기 (한국언론진흥재단 뉴스 토픽.csv)
2단계 : 데이터로 알고 싶은 내용 질문하기
한국 언론진흥재단 뉴스 빅 데이터 뉴스 토픽 데이터로 떠올려볼 수 있는 질문
- 2012년에 많이 언급된 토픽은?
- 시간의 흐름에 따라 토픽의 빈도수에 차이가 있는가?
3단계 : 워드 클라우드 만들기(실습)
1. 2012년에 많이 언급된 토픽은?
2. 2012년 시간의 흐름에 따라 토픽의 빈도수는 어떻게 차이가 있는가?
4단계 : 질문에 답해보기
Q1. 2012년에 많이 언급된 토픽은 무엇인가?
A1. 후보, 민주, 대선, 대통령과 같은 대선 관련 단어가 많이 등장하므로, 18대 대통령 선거가 있었던 해임을 알 수 있다.
Q2. 시간의 흐름에 따라 토픽의 빈도수에 차이가 있는가?
A2. 1월에는 봉투, 민주 등의 단어로, 봉투와 관련된 사건을 짐작할 수 있고,
2월에 민주, 공천이라는 단어로, 대선을 앞두고 공천을 시작한 것을 알 수 있다. 그리스 경제 문제가 있기도 하였다.
'데이터 시각화(태블로) > 3단원' 카테고리의 다른 글
3-6. 하이라이트 지도 : 지리적 데이터 분석 중심의 시각화 (0) | 2023.02.18 |
---|---|
3-5. 하이라이트 테이블 : 데이터 포착 중심의 시각화 (0) | 2023.02.18 |
3-4. 분산형 차트 : 관계 분석 중심의 시각화 (0) | 2023.02.18 |
3-3. 파이 차트 : 비율 분석 중심의 시각화 (0) | 2023.02.18 |
3-2. 선 차트 (시간에 따른 변화 중심의 시각화) (0) | 2023.02.18 |