반응형

데이터를 시각화하는 두 가지 방법인 히스토그램(일변량 차트)박스 플롯(다변량 차트) 이 있습니다.

일변량 차트: 히스토그램 이해

히스토그램은 단일 변수의 데이터 분포를 시각화하는 데 사용됩니다. 히스토그램을 통해 데이터의 분포, 중간값, 이상치 여부 등을 알 수 있습니다.

 

히스토그램으로 알 수 있는것
1. 분포의 끊어짐을 통해 그룹의 여부를 알 수 있다.
2. 분포에서 한 데이터가 홀로 떨어져 있는 경우 이상치가 있음을 알 수 있다.
3. 중간값을 알 수 있다.
4. 분포를 알 수 있다

import matplotlib.pyplot as plt
import numpy as np

# 예시 데이터 생성
data = np.random.normal(50, 10, 1000)

# 히스토그램 생성
plt.hist(data, bins=30)
plt.title("히스토그램 예시")
plt.xlabel("값")
plt.ylabel("빈도")
plt.show()

 

다변량 차트: 박스 플롯 이해

박스 플롯은 여러 변수의 데이터 분포를 비교하는 데 유용합니다. 중간값, IQR, 최솟값/최댓값, 이상치 등을 한눈에 파악할 수 있습니다.


박스 플롯으로 알 수 있는것

1. 중간값을 알 수 있다. (빨간선은 평균 아님)
2. 박스는 IQR이라고 하고 이 IQR내에 전체 데이터의 50%가 들어있게 된다.
3. 가로선은 최솟/최댓값을 의미
4. 점으로 표시된 것은 이상치를 의미
5. 데이터를 4분위수로 쪼개는 것
ex: 첫번째부터 25% -> 1사분위 수
6. 5번을 통해 중간값을 기준으로 대칭인지 비대칭인지 알 수 있게된다.

 

import matplotlib.pyplot as plt
import numpy as np

# 예시 데이터 생성
data = np.random.normal(50, 10, 1000)
data2 = np.random.normal(60, 15, 1000)

# 박스 플롯 생성
plt.boxplot([data, data2])
plt.title("Box plot example")
plt.xlabel("variable")
plt.ylabel("value")
plt.show()

 

반응형