본문 바로가기
TIL

본 캠프 54일차 TIL

by Data 학습자 2024. 8. 16.

Statistical Method: 통계적 방법

  • Parametric 가우시안 분포 등 미리 정해진 확률 분포를 가정하여 데이터를 분석하는 방법이다.
    • Gaussian Density Estimation 데이터를 하나의 가우시안 분포로 근사하여 분석한다.
    • Mixture of Gaussian Density Estimation 다수의 가우시안 분포를 사용하여 분석한다.
  • Non-parametric 미리 정해진 확률 분포를 가정하지 않고, 관측된 데이터 자체로부터 확률 분포를 추정한다.
    • Histogram 데이터의 구간별 개수를 세어 확률을 추정한다.
    • Kernel-density Estimation 각 데이터 포인트에 개별 확률 분포를 적용하여 전체 확률 분포를 추정한다.
  • 단점
    • 적절한 확률 분포를 찾기 어렵고, 다차원 데이터에 잘 적용하기 어렵다.
    • 통계적 접근법은 간단하지만, 높은 차원의 데이터를 다룰 때 한계가 있다.

머신 러닝 기반 이상 탐지 기법

  • Classification (분류)
    • 정상과 이상 데이터를 구분하는 경계를 찾는 방법으로, 주로 이진 분류 문제에 사용된다. 그러나 데이터 불균형 문제로 인해 이상 탐지에선 활발히 사용되지 않는다. 대표적인 모델은 SVM과 OCSVM이다.
  • Nearest-Neighbor (이웃?)
    • 정상 데이터는 서로 밀집해 있다는 가정을 바탕으로, 이웃 데이터와의 거리 및 밀도를 이용해 이상 데이터를 탐지한다. 대표적인 방법으로 KNN과 LOF가 있다.
  • Clustering (군집화)
    • 데이터를 군집으로 묶고, 어느 군집에도 속하지 않는 데이터를 이상치로 간주한다. K-Means가 대표적인 예시다. 그러나 군집의 개수를 미리 지정해야 한다는 단점이 있다.
  • Reconstruction-based (재구성 기반)
    • 데이터를 복원하는 과정에서 정상 데이터는 원래대로 복원되지만, 비정상 데이터는 복원되지 않는다는 가정에 기반한다. PCA와 오토인코더가 대표적인 방법이다.

머신 러닝 기반 이상 탐지의 단점

  1. 데이터 불균형 문제:
    •     이상 탐지에서는 정상 데이터가 대부분을 차지하고, 이상 데이터는 매우 적은 비율로 존재하는 경우가 많다.
    •     머신 러닝 모델은 일반적으로 데이터가 균등하게 분포되어 있을 때 더 잘 작동하기 때문에, 불균형한 데이터에서는 성능이 저하될 수 있다.
  2. 라벨링된 데이터의 필요성:
    •     많은 머신 러닝 모델은 라벨링된 데이터를 필요로 한다.
    •     실제로는 이상 데이터에 대한 라벨이 없는 경우가 많기 때문에, 모델 학습에 제약이 생긴다.
  3. 비선형 문제 처리의 한계:
    •     일부 머신 러닝 알고리즘(예: SVM)은 비선형 문제를 처리하는 데 어려움이 있을 수 있다.
    •     비선형 문제를 해결하기 위해 커널 트릭 같은 방법을 사용할 수 있지만, 이는 항상 성공적인 결과를 보장하지는 않는다.
  4. 고차원 데이터 처리의 어려움:
    •     데이터의 차원이 높아지면 모델의 복잡성과 연산량이 급증하여 성능이 저하될 수 있다.
    •     특히 고차원 데이터 간의 연관성을 잘 다루지 못하는 경우, 예측 성능이 떨어질 수 있다.

'TIL' 카테고리의 다른 글

본 캠프 51일차 TIL  (0) 2024.08.13
본 캠프 50일차 TIL  (0) 2024.08.12
본 캠프 47일차 TIL  (0) 2024.08.09
본 캠프 46일차 TIL  (0) 2024.08.09
본 캠프 45일차 TIL  (0) 2024.08.07