데이터분석/전처리
Data Preprocessing - 이상치 탐지
2^7
2024. 11. 11. 21:00
이상치란?
- 이상치는 데이터의 평균이나 중간값과 크게 차이가 나는 값
- 이상치는 흔히 데이터 입력 오류, 센서 오작동, 드물게 나타나는 현상 등으로 인해 발생할 수 있음
1.이상치를 찾는 방법
1) 시각화를 통한 탐지
- 상자 그림(Box Plot): 데이터의 분포를 쉽게 시각화해주는 도구로 이상치는 보통 상자 밖의 점으로 표시됨
- 산점도(Scatter Plot): 산점도를 통해 두 변수 간의 관계에서 비정상적인 값을 눈으로 확인이 가능
2) 통계적 방법
- 평균과 표준편차: 데이터가 정규분포를 따를 때, 평균에서 멀리 떨어진 값을 이상치로 판단할 수 있음
- 사분위수 범위(IQR): 데이터의 1사분위수(Q1)와 3사분위수(Q3) 사이의 거리를 기준으로 이상치를 탐지할 수 있음, 보통 Q1−1.5×IQR 이하나 Q3+1.5×IQR 이상에 위치한 값을 이상치로 판단
3) 머신러닝 기법
- Isolation Forest나 LOF (Local Outlier Factor) 같은 알고리즘을 사용해 데이터의 이상치를 탐지할 수도 있음
- 다소 복잡하지만, 많은 변수를 고려한 이상치 탐지에 유용함
2.이상치를 처리하는 방법
1) 이상치 제거
- 이상치를 제거함
- 데이터의 크기가 작거나, 이상치가 중요한 정보일 수 있어 신중하게 해야함
2) 값 대체 (Imputation)
- 평균값 대체: 이상치를 해당 열의 평균값으로 대체
- 중앙값 대체: 평균 대신 중앙값으로 대체하면, 극단적인 이상치의 영향을 줄일 수 있음
- 가장 가까운 이웃(KNN) 대체: K-Nearest Neighbors(KNN) 알고리즘을 사용해, 유사한 다른 데이터 포인트의 값을 참고해 이상치를 대체
3) 별도의 처리를 하지 않고 유지
- 이상치 자체가 의미를 가지는 경우도 있음
- 이런 경우 제거나 따로 처리하지 않고 분석에 활용 할 수 있음
3. 이상치 처리 시 주의점
- 이상치는 무조건적으로 제거하거나 대체하는 것이 아닌, 분석의 목적에 맞춰 신중하게 처리해야 함
- 중요한 정보가 이상치로 나타나는 경우 이를 잘못 처리하면 분석 결과의 정확도가 떨어질 수 있음
- 데이터의 도메인 지식을 활용해 이상치가 정말 비정상적인 값인지, 아니면 중요한 패턴인지 확인하는 과정이 필요함
728x90