데이터분석/통계
데이터 분석 - 기술 통계
2^7
2024. 12. 11. 21:00
기술 통계
기술 통계는 데이터를 요약하고, 데이터릐 분포를 이해하는데 도움이 되는 도구로 데이터셋의 특징을 간단히 표현하여 한 눈에 파악하고, 복잡한 데이터를 간결하게 표현하며, 데이터의 이상치를 확인하는데 도움을 줌
기술 통계 주요 요소
1. 평균(Mean)
- 데이터의 전체 값을 데이터의 개수로 나눈 값
- 데이터의 중심 경향을 나타내는 대표적인 지표
- 데이터가 대체로 어디에 위치하는지에 대한 정보를 제공
- 극단값(아웃라이어)의 영향을 많이 받음
- 연속형 데이터에서 유용하며, 데이터의 분포를 요약하는데 도움을 줌
import numpy as np
# 데이터 예제
data = [10, 20, 30, 40, 50]
# 평균 계산
mean = np.mean(data)
print("평균:", mean)
2. 중앙값(Median)
- 데이터를 크기순으로 정렬했을 때 중앙에 위치한 값
- 데이터가 짝수인 경우 중앙에 있는 두 값의 평균을 사용
- 데이터의 중간값으로, 이상치에 영향을 덜 받음
- 극단값의 영향을 받지 않음
- 데이터의 분포가 치우쳤을 때 평균보다 더 신뢰할 수 있는 값을 제공
# 중앙값 계산
median = np.median(data)
print("중앙값:", median)
3. 최빈값(Mode)
- 최빈값의 데이터에서 가장 많이 나타나는 값
- 범주형 데이터나 이산형 데이터에서 자주 사용
- 데이터의 분포를 확인하는데 중요한 지표
- 데이터 분포를 이해하는데 유용
- 연속형 데이터에서는 최빈값이 여러 개일 수 있음
from scipy import stats
# 최빈값 계산
mode = stats.mode(data)
print("최빈값:", mode.mode[0], "빈도:", mode.count[0])
4. 범위(Range)
- 데이터의 최대값에서 최소값을 뺀 값
- 데이터가 얼마나 넓게 퍼져 있는지를 나타냄
- 계산이 간단하여 데이터의 확산 정도를 빠르게 이해할 수 있음
- 이상치가 포함된 경우 데이터 분포에 대한 왜곡된 정보를 제공할 수 있음
# 범위 계산
range_value = max(data) - min(data)
print("범위:", range_value)
5. 분산(Variance)
- 데이터 값들이 평균으로부터 얼마나 멀리 떨어저 있는지를 제곱으로 계산한 값
- 값이 클수록 데이터의 퍼짐 정도가 큼을 의미
# 분산 계산
variance = np.var(data)
print("분산:", variance)
6. 표준편차(Standard Deviation)
- 분산의 제곱근으로 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타냄
- 분산의 단위 문제를 해결하며, 데이터의 산포도를 이해하는데 더욱 직관적임
- 값이 작을수록 데이터가 평균에 더 밀집해 있음을 의미
# 표준편차 계산
std_deviation = np.std(data)
print("표준편차:", std_deviation)
728x90