상세 컨텐츠

본문 제목

Data Preprocessing - 이상치 탐지

데이터분석/전처리

by 2^7 2024. 11. 11. 21:00

본문

이상치란? 

  • 이상치는 데이터의 평균이나 중간값과 크게 차이가 나는 값
  • 이상치는 흔히 데이터 입력 오류, 센서 오작동, 드물게 나타나는 현상 등으로 인해 발생할 수 있음

 

1.이상치를 찾는 방법

1) 시각화를 통한 탐지

  • 상자 그림(Box Plot): 데이터의 분포를 쉽게 시각화해주는 도구로 이상치는 보통 상자 밖의 점으로 표시됨
  • 산점도(Scatter Plot): 산점도를 통해 두 변수 간의 관계에서 비정상적인 값을 눈으로 확인이 가능

2) 통계적 방법

  • 평균과 표준편차: 데이터가 정규분포를 따를 때, 평균에서 멀리 떨어진 값을 이상치로 판단할 수 있음
  • 사분위수 범위(IQR): 데이터의 1사분위수(Q1)와 3사분위수(Q3) 사이의 거리를 기준으로 이상치를 탐지할 수 있음, 보통 Q1−1.5×IQR 이하나 Q3+1.5×IQR 이상에 위치한 값을 이상치로 판단

3) 머신러닝 기법

  • Isolation Forest나 LOF (Local Outlier Factor) 같은 알고리즘을 사용해 데이터의 이상치를 탐지할 수도 있음
  • 다소 복잡하지만, 많은 변수를 고려한 이상치 탐지에 유용함

 

2.이상치를 처리하는 방법

1) 이상치 제거

  • 이상치를 제거함
  • 데이터의 크기가 작거나, 이상치가 중요한 정보일 수 있어 신중하게 해야함

2)  값 대체 (Imputation)

  • 평균값 대체: 이상치를 해당 열의 평균값으로 대체
  • 중앙값 대체: 평균 대신 중앙값으로 대체하면, 극단적인 이상치의 영향을 줄일 수 있음
  • 가장 가까운 이웃(KNN) 대체: K-Nearest Neighbors(KNN) 알고리즘을 사용해, 유사한 다른 데이터 포인트의 값을 참고해 이상치를 대체

3) 별도의 처리를 하지 않고 유지

  • 이상치 자체가 의미를 가지는 경우도 있음
  • 이런 경우 제거나 따로 처리하지 않고 분석에 활용 할 수 있음

 

3. 이상치 처리 시 주의점

  • 이상치는 무조건적으로 제거하거나 대체하는 것이 아닌, 분석의 목적에 맞춰 신중하게 처리해야 함
  • 중요한 정보가 이상치로 나타나는 경우 이를 잘못 처리하면 분석 결과의 정확도가 떨어질 수 있음
  • 데이터의 도메인 지식을 활용해 이상치가 정말 비정상적인 값인지, 아니면 중요한 패턴인지 확인하는 과정이 필요함

 

 

 

728x90

관련글 더보기