데이터분석/통계

데이터 분석 - 기술 통계

2^7 2024. 12. 11. 21:00

기술 통계

 기술 통계는 데이터를 요약하고, 데이터릐 분포를 이해하는데 도움이 되는 도구로 데이터셋의 특징을 간단히 표현하여 한 눈에 파악하고, 복잡한 데이터를 간결하게 표현하며, 데이터의 이상치를 확인하는데 도움을 줌

 

기술 통계 주요 요소

 1. 평균(Mean)

  • 데이터의 전체 값을 데이터의 개수로 나눈 값
  • 데이터의 중심 경향을 나타내는 대표적인 지표
  • 데이터가 대체로 어디에 위치하는지에 대한 정보를 제공
  • 극단값(아웃라이어)의 영향을 많이 받음
  • 연속형 데이터에서 유용하며, 데이터의 분포를 요약하는데 도움을 줌
import numpy as np

# 데이터 예제
data = [10, 20, 30, 40, 50]

# 평균 계산
mean = np.mean(data)
print("평균:", mean)

  2. 중앙값(Median)

  • 데이터를 크기순으로 정렬했을 때 중앙에 위치한 값
  • 데이터가 짝수인 경우 중앙에 있는 두 값의 평균을 사용
  • 데이터의 중간값으로, 이상치에 영향을 덜 받음
  • 극단값의 영향을 받지 않음
  • 데이터의 분포가 치우쳤을 때 평균보다 더 신뢰할 수 있는 값을 제공
# 중앙값 계산
median = np.median(data)
print("중앙값:", median)

   3. 최빈값(Mode)

  • 최빈값의 데이터에서 가장 많이 나타나는 값
  • 범주형 데이터나 이산형 데이터에서 자주 사용
  • 데이터의 분포를 확인하는데 중요한 지표
  • 데이터 분포를 이해하는데 유용
  • 연속형 데이터에서는 최빈값이 여러 개일 수 있음
from scipy import stats

# 최빈값 계산
mode = stats.mode(data)
print("최빈값:", mode.mode[0], "빈도:", mode.count[0])

 4. 범위(Range)

  • 데이터의 최대값에서 최소값을 뺀 값
  • 데이터가 얼마나 넓게 퍼져 있는지를 나타냄
  • 계산이 간단하여 데이터의 확산 정도를 빠르게 이해할 수 있음
  • 이상치가 포함된 경우 데이터 분포에 대한 왜곡된 정보를 제공할 수 있음
# 범위 계산
range_value = max(data) - min(data)
print("범위:", range_value)

5. 분산(Variance)

  • 데이터 값들이 평균으로부터 얼마나 멀리 떨어저 있는지를 제곱으로 계산한 값
  • 값이 클수록 데이터의 퍼짐 정도가 큼을 의미
# 분산 계산
variance = np.var(data)
print("분산:", variance)

6. 표준편차(Standard Deviation)

  • 분산의 제곱근으로 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타냄
  • 분산의 단위 문제를 해결하며, 데이터의 산포도를 이해하는데 더욱 직관적임
  • 값이 작을수록 데이터가 평균에 더 밀집해 있음을 의미
# 표준편차 계산
std_deviation = np.std(data)
print("표준편차:", std_deviation)

 

728x90