본문 바로가기
TIL

본 캠프 30일차 TIL

by Data 학습자 2024. 7. 23.

오늘 공부 한 것

이상치란?

  이상치(Outliers)는 데이터 세트 내에서 다른 데이터 점들과 현저히 다른 값들을 의미합니다. 이는 통계 분석 및 데이터 분석 과정에서 중요한 요소로, 다양한 원인으로 인해 발생할 수 있습니다. 이상치는 데이터 분석 결과에 큰 영향을 미칠 수 있으며, 이를 적절히 식별하고 처리하는 것이 중요합니다.

이상치의 원인

  1. 데이터 입력 오류:
    • 설명: 데이터 수집 과정에서 입력 오류가 발생할 수 있습니다.
    • 예시: 설문조사에서 응답자가 잘못된 값을 입력하거나, 센서에서 오류가 발생한 경우.
  2. 극단적인 값:
    • 설명: 자연적인 분포에서 극단적인 값이 나타날 수 있습니다.
    • 예시: 키와 몸무게 데이터에서 매우 키가 크거나 몸무게가 많은 사람.
  3. 데이터 변동:
    • 설명: 데이터가 변동성이 큰 경우 이상치가 나타날 수 있습니다.
    • 예시: 주식 시장 데이터에서 갑작스러운 가격 변동.

IQR 방법은 이상치를 탐지하는 데 사용되는 통계적 기법입니다. IQR은 데이터 세트를 사분위수(Q1, Q3)로 나누어 각 사분위수 간의 범위를 나타냅니다. IQR 방법은 이 범위를 사용하여 데이터 세트의 중심에서 벗어난 값을 이상치로 식별합니다.

 

IQR 방법의 장점과 단점

장점:

  • 직관적이고 쉬운 계산: IQR 방법은 쉽게 계산할 수 있으며 직관적으로 이해할 수 있습니다.
  • 견고성: 평균과 표준편차와 달리, IQR은 극단값에 민감하지 않으며 데이터의 중앙값에 기반합니다.

단점:

  • 데이터 분포 의존: 데이터 분포가 비대칭인 경우, IQR 방법이 부정확할 수 있습니다.
  • 단순성: 매우 복잡한 데이터 세트에서는 단순한 IQR 방법이 충분하지 않을 수 있습니다.

 

 

'TIL' 카테고리의 다른 글

본 캠프 32일차 TIL  (0) 2024.07.25
본 캠프 31일차 TIL  (0) 2024.07.24
본 캠프 29일차 TIL  (1) 2024.07.23
본 캠프 28일차 TIL  (1) 2024.07.22
본 캠프 27일차 TIL  (0) 2024.07.21