상세 컨텐츠

본문 제목

데이터 시각화 기초 - 그래프 종류 1

데이터분석/시각화

by 2^7 2024. 7. 22. 20:11

본문

1. 히스토그램

 히스토그램은 자료의 분포 상태를 직사각형 모양의 막대 그래프로 나타낸 것으로 주로 연속형 데이터를 다룰 때 사용되며 데이터의 빈도를 나타내 어떤 값이 자주 나오는지 시각적으로 보여줌

 데이터의 대략적인 분포를 빠르게 파악할 수 있는 그래프로 데이터 분석 과정에서 자주 사용됨

import matplotlib.pyplot as plt
plt.hist([1,1,2,3,4,5,6,6,7,8,10,10])
plt.show()

 

  •  ex) 주사위 굴리는 것을 시뮬레이션 하여 나온 결과를 나타내는 히스토그램
import matplotlib.pyplot as plt
import random 
dice = []
for i in range(100) :   #주사위를 100번 던진다.
    dice.append(random.randint(1,6))
plt.hist(dice, bins=6)
plt.show()

주사위 100번을 던졌을 때 결과


2. 상자그림(boxplot) 

 상자그림은 자료에서 얻어낸 최댓값, 최솟값, 상위 1/4, 2/4(중앙값), 3/4 에 위치한 값을 보여주는 그래프이다. 이런 값들을 이용하여 데이터 분초 형태와 이상치의 존재 여부를 시각적으로 파악 할 수 있음

  • 최솟값 (Minimum):
    • boxplot에서 가장 아래에 위치한 선분의 끝을 나타냄
    • 데이터 중에서 가장 작은 값
  • 최댓값 (Maximum):
    • boxplot에서 가장 위에 위치한 선분의 끝을 나타냄.
    • 데이터 중에서 가장 큰 값
  • 상위 1/4 (Upper Quartile, Q3):
    • 전체 데이터의 상위 25%에 해당하는 값
    • 데이터를 크기순으로 정렬했을 때, 75번째 백분위수(75th percentile)에 해당
  • 중앙값 (Median, Q2):
    • 전체 데이터를 크기순으로 정렬했을 때 중간에 위치하는 값
    • 데이터의 중간값
  • 하위 1/4 (Lower Quartile, Q1):
    • 전체 데이터의 하위 25%에 해당하는 값.
    • 데이터를 크기순으로 정렬했을 때, 25번째 백분위수(25th percentile)에 해당
import matplotlib.pyplot as plt
import random
result = []
for i in range(13) :
    result.append(random.randint(1,1000))  #1에서 1000의 숫자 범위
print(sorted(result))

plt.boxplot(result)
plt.show()

 나타난 결과는 제일 아래 178을 표시한 최솟값, 바로 위 사각형의 아래 선 452을 나타내는 1/4값, 사각형 안 주황색 선 681을 나타내는 2/4값(중앙값), 바로 위 사각형의 윗 선 711을 나타내는 3/4값, 마지막으로 제일 위에 표시된 최댓값 931을 표시한다.

 

 

참고 서적 : 모두의 데이터분석 with파이썬
728x90

관련글 더보기