분류 전체보기103 본 캠프 54일차 TIL Statistical Method: 통계적 방법Parametric 가우시안 분포 등 미리 정해진 확률 분포를 가정하여 데이터를 분석하는 방법이다.Gaussian Density Estimation 데이터를 하나의 가우시안 분포로 근사하여 분석한다.Mixture of Gaussian Density Estimation 다수의 가우시안 분포를 사용하여 분석한다.Non-parametric 미리 정해진 확률 분포를 가정하지 않고, 관측된 데이터 자체로부터 확률 분포를 추정한다.Histogram 데이터의 구간별 개수를 세어 확률을 추정한다.Kernel-density Estimation 각 데이터 포인트에 개별 확률 분포를 적용하여 전체 확률 분포를 추정한다.단점적절한 확률 분포를 찾기 어렵고, 다차원 데이터에 잘 적.. 2024. 8. 16. 이상탐지 1부 정상과 비정상, 그리고 이상탐지 보호되어 있는 글 입니다. 2024. 8. 14. 본 캠프 51일차 TIL 1. 이상 탐지의 정의이상 탐지는 특이한 값이나 보기 드문 사건을 탐지하는 과정으로, 정상과 다른 데이터 패턴을 찾아내는 것이 목적입니다. 이를 통해 조기 경고를 보내고 근본 원인을 해결하는 데 사용됩니다.2. Novelty와 OutlierNovelty는 이전에 본 적 없는 새로운 데이터로, 학습 데이터에 포함되지 않은 데이터를 탐지하는 것Outlier는 기존 데이터와 비교해 확연히 다른 데이터로, 학습 데이터 내에서 다르거나 벗어난 데이터를 제거하는 것3. 방법론 차이Novelty Detection은 정상 데이터만으로 학습한 후 새로운 입력 데이터를 검사합니다.Outlier Detection은 정상 및 이상 데이터를 모두 학습하고, 학습 데이터 내에서 벗어난 데이터를 제거합니다.4. 이상 탐지의 어려움.. 2024. 8. 13. 본 캠프 50일차 TIL 이상치(Outlier)는 데이터 분석에서 관찰된 값들이 대부분의 데이터와 비교했을 때 상당히 다른 값을 가지는 데이터를 의미한다. 이상치는 데이터의 분포에서 벗어난 값으로, 데이터의 분석 결과에 큰 영향을 미칠 수 있기 때문에 이를 식별하고 처리하는 것이 매우 중요하다.이상치의 원인이상치는 여러 가지 원인으로 인해 발생할 수 있다. 주요 원인으로는 다음과 같은 것들이 있다 1. 측정 오류데이터 수집 과정에서 발생할 수 있는 오류로, 잘못된 장비 설정, 인간의 실수, 시스템 오류 등이 이상치를 유발할 수 있다.2. 데이터 입력 오류데이터를 수동으로 입력하는 과정에서 발생하는 오류로, 잘못된 값이 입력되면 이상치가 발생할 수 있다.3. 자연적인 변동실제로 발생하는 극단적인 상황으로 인해 이상치가 나타날 수 .. 2024. 8. 12. 이전 1 2 3 4 ··· 26 다음