오늘 공부 한 것
이상치란?
이상치(Outliers)는 데이터 세트 내에서 다른 데이터 점들과 현저히 다른 값들을 의미합니다. 이는 통계 분석 및 데이터 분석 과정에서 중요한 요소로, 다양한 원인으로 인해 발생할 수 있습니다. 이상치는 데이터 분석 결과에 큰 영향을 미칠 수 있으며, 이를 적절히 식별하고 처리하는 것이 중요합니다.
이상치의 원인
- 데이터 입력 오류:
- 설명: 데이터 수집 과정에서 입력 오류가 발생할 수 있습니다.
- 예시: 설문조사에서 응답자가 잘못된 값을 입력하거나, 센서에서 오류가 발생한 경우.
- 극단적인 값:
- 설명: 자연적인 분포에서 극단적인 값이 나타날 수 있습니다.
- 예시: 키와 몸무게 데이터에서 매우 키가 크거나 몸무게가 많은 사람.
- 데이터 변동:
- 설명: 데이터가 변동성이 큰 경우 이상치가 나타날 수 있습니다.
- 예시: 주식 시장 데이터에서 갑작스러운 가격 변동.
IQR 방법은 이상치를 탐지하는 데 사용되는 통계적 기법입니다. IQR은 데이터 세트를 사분위수(Q1, Q3)로 나누어 각 사분위수 간의 범위를 나타냅니다. IQR 방법은 이 범위를 사용하여 데이터 세트의 중심에서 벗어난 값을 이상치로 식별합니다.
IQR 방법의 장점과 단점
장점:
- 직관적이고 쉬운 계산: IQR 방법은 쉽게 계산할 수 있으며 직관적으로 이해할 수 있습니다.
- 견고성: 평균과 표준편차와 달리, IQR은 극단값에 민감하지 않으며 데이터의 중앙값에 기반합니다.
단점:
- 데이터 분포 의존: 데이터 분포가 비대칭인 경우, IQR 방법이 부정확할 수 있습니다.
- 단순성: 매우 복잡한 데이터 세트에서는 단순한 IQR 방법이 충분하지 않을 수 있습니다.
'TIL' 카테고리의 다른 글
본 캠프 32일차 TIL (0) | 2024.07.25 |
---|---|
본 캠프 31일차 TIL (0) | 2024.07.24 |
본 캠프 29일차 TIL (1) | 2024.07.23 |
본 캠프 28일차 TIL (1) | 2024.07.22 |
본 캠프 27일차 TIL (0) | 2024.07.21 |