데이터 시각화(태블로)/3단원

3-4. 분산형 차트 : 관계 분석 중심의 시각화

자라나는지수새싹 2023. 2. 18. 17:40

* 분산형 차트란?

가로(x)축과 세로(y)축으로 구성된 좌표에 점을 찍어서 산점도 그래프로 나타내는 방법

 

* 상황별 분산형 차트 사용법

 

1) 분산형 차트는 항목 간 관계를 확인할 때 유용하다.

기온과 아이스크림 판매량의 관계를 나타낸 분산형 차트

 

분산형 차트로 확인할 수 있는 관계는 다음과 같이 4가지로 나뉜다.

(a) 양의 선형 관계 : x 값이 증가하면 y 값도 증가한다. (일차식으로 표현, 상관계수가 +1에 가깝다.)

(b) 음의 선형 관계 : x 값이 증가하면 y 값이 감소한다. (일차식으로 표현, 상관계수가 -1에 가깝다.)

(c) 비선형 관계 : x 값이 증가함에 따라 y 값이 증가할수도, 감소할수도 있다. (이차식 이상의 다항식으로 표현)

(d) 관계 없음 : 두 항목 간의 연관성을 찾을 수 없는 관계 (상관 계수가 0에 가깝다.)

분산형 차트로 확인할 수 있는 관계는 다음과 같이 4가지로 나뉜다.

2) 분산형 차트는 분포 양상을 비교할 때 유용하다.

유료 회원과 무료 회원 두 가지 라벨 다른 색상을 사용하여 분산형 차트에 표현

여기서는, 유료 서비스 가입자가 증가할수록, 매출이 증가한다는 결론을 얻을 수 있으며,

매출을 높이기 위해서는 무료 서비스 회원을 유료 서비스를 사용하도록 하는 캠페인을 활성화하는 해결 방향을 제시할 수 있을 것 같다.

 

 

<분산형 차트로 확인할 수 있는 분포 양상 2가지>

1. 데이터 군집화 : 카테고리별로 항목의 (x,y) 값이 특정 위치에 밀집되어 보이는 양상

2. 이상치 : 다른 값들과 매우 동떨어져서 나타나는 값 (파이썬에서는 boxplot으로 Q3 + 1.5IQR, Q1 - 1.5IQR을 사용)

 

* 분산형 차트를 사용하는 TIP

 

1) 항목 간의 관계를 명확하게 표현하고 싶다면 추세선을 사용하도록 한다. 

추세선을 사용한 분산형 차트 예시 (선형 추세선, 1차식으로 나타난다.)

 

추세선 사용 (비선형 추세선, 2차식 이상의 고차방정식으로 나타난다.)

 

!!! 점의 분포에 맞는 추세선을 사용해야 하며,

다음과 같이 비선형 관계일 때, 선형 추세선을 사용하면 잘못된 결론을 내릴 수 있다. !!!

 

추세선을 잘못 사용한 예시

 

2) 카테고리가 2개 이상인 경우 각각의 카테고리를 색상으로 구분하도록 한다.

평균 기온, 자전거 대여량의 관계를 성별별로 다른 색상을 적용한 분산형 차트

 

<실습> 졸음운전 사고 건수는 사상자수와 어떤 관계를 보일까?

 

1) 데이터 준비하기

 

2) 데이터로 알고 싶은 내용 질문하기

 

  • 졸음운전 사고 건수와 사망자수는 어떤 관계가 있는가?
  • 졸음운전 사고 건수와 부상자수는 어떤 관계가 있는가?
  • 졸음운전 사고 건수 대비 사망자수는 도로 종류에 따라 어떤 특성을 보이는가?
  • 졸음운전 사고 건수 대비 부상자수는 도로 종류에 따라 어떤 특성을 보이는가?

 

3) 분산형 차트 만들기

 

졸음운전 사고 건수와 사망자수 사이의 상관관계 분산형 차트 실습

 

졸음운전 사고 건수와 부상자수 사이의 상관관계 분산형 차트 실습, 도로 형태에 따른 실습

 

4) 질문에 답해보기

 

Q1. 졸음 운전 사고 건수와 사망자수는 어떤 관계가 있는가?

A1. 증가하는 추세이나, 추세선 기울기가 그렇게 가파르지는 않아, 연관성은 크지 않다.

 

Q2. 졸음 운전 사고 건수와 부상자수는 어떤 관계가 있는가?

A2. 추세선의 기울기가 사망자수보다 훨씬 가파르므로, 졸음 운전을 하면 높은 확률로 부상을 당하게 된다.

 

Q3. 졸음운전 사고 건수 대비 사망자수는 도로 종류에 따라 어떤 특성을 보이는가?

A3. 추세선의 기울기가 도로 종류별로 달라, 도로 종류에 영향을 받는 것을 알 수 있다.

특히, 군도의 경우 사고 건수가 늘어나면 사망자수가 급격히 증가한다.

 

Q4. 졸음운전 사고 건수 대비 부상자수는 도로 종류에 따라 어떤 특성을 보이는가?

A4. 추세선의 기울기가 도로 종류별로 모두 비슷하여, 부상자수는 도로의 종류와 크게 연관성은 없는 것으로 파악된다.