TIL46 본 캠프 54일차 TIL Statistical Method: 통계적 방법Parametric 가우시안 분포 등 미리 정해진 확률 분포를 가정하여 데이터를 분석하는 방법이다.Gaussian Density Estimation 데이터를 하나의 가우시안 분포로 근사하여 분석한다.Mixture of Gaussian Density Estimation 다수의 가우시안 분포를 사용하여 분석한다.Non-parametric 미리 정해진 확률 분포를 가정하지 않고, 관측된 데이터 자체로부터 확률 분포를 추정한다.Histogram 데이터의 구간별 개수를 세어 확률을 추정한다.Kernel-density Estimation 각 데이터 포인트에 개별 확률 분포를 적용하여 전체 확률 분포를 추정한다.단점적절한 확률 분포를 찾기 어렵고, 다차원 데이터에 잘 적.. 2024. 8. 16. 본 캠프 51일차 TIL 1. 이상 탐지의 정의이상 탐지는 특이한 값이나 보기 드문 사건을 탐지하는 과정으로, 정상과 다른 데이터 패턴을 찾아내는 것이 목적입니다. 이를 통해 조기 경고를 보내고 근본 원인을 해결하는 데 사용됩니다.2. Novelty와 OutlierNovelty는 이전에 본 적 없는 새로운 데이터로, 학습 데이터에 포함되지 않은 데이터를 탐지하는 것Outlier는 기존 데이터와 비교해 확연히 다른 데이터로, 학습 데이터 내에서 다르거나 벗어난 데이터를 제거하는 것3. 방법론 차이Novelty Detection은 정상 데이터만으로 학습한 후 새로운 입력 데이터를 검사합니다.Outlier Detection은 정상 및 이상 데이터를 모두 학습하고, 학습 데이터 내에서 벗어난 데이터를 제거합니다.4. 이상 탐지의 어려움.. 2024. 8. 13. 본 캠프 50일차 TIL 이상치(Outlier)는 데이터 분석에서 관찰된 값들이 대부분의 데이터와 비교했을 때 상당히 다른 값을 가지는 데이터를 의미한다. 이상치는 데이터의 분포에서 벗어난 값으로, 데이터의 분석 결과에 큰 영향을 미칠 수 있기 때문에 이를 식별하고 처리하는 것이 매우 중요하다.이상치의 원인이상치는 여러 가지 원인으로 인해 발생할 수 있다. 주요 원인으로는 다음과 같은 것들이 있다 1. 측정 오류데이터 수집 과정에서 발생할 수 있는 오류로, 잘못된 장비 설정, 인간의 실수, 시스템 오류 등이 이상치를 유발할 수 있다.2. 데이터 입력 오류데이터를 수동으로 입력하는 과정에서 발생하는 오류로, 잘못된 값이 입력되면 이상치가 발생할 수 있다.3. 자연적인 변동실제로 발생하는 극단적인 상황으로 인해 이상치가 나타날 수 .. 2024. 8. 12. 본 캠프 47일차 TIL 로지스틱 회귀의 주요 개념이진 분류(Binary Classification):로지스틱 회귀는 두 가지 가능한 결과(예: 성공/실패, 참/거짓, 예/아니오) 중 하나를 예측하는 이진 분류 문제에 사용된다.로짓 함수(Logit Function):로지스틱 회귀는 종속 변수를 예측하기 위해 로짓 함수를 사용한다. 로짓 함수는 확률을 로짓(logit)으로 변환한다.시그모이드 함수(Sigmoid Function):로지스틱 회귀의 핵심은 선형 회귀에서 얻은 결과를 시그모이드 함수에 통과시켜 0과 1 사이의 값을 갖는 확률로 변환하는 것이다.확률 예측:시그모이드 함수의 출력은 0과 1 사이의 값으로, 이 값은 특정 클래스에 속할 확률을 나타낸다.예를 들어, 0.7이라는 값이 나오면 이 샘플이 클래스 1에 속할 확률이 .. 2024. 8. 9. 이전 1 2 3 4 ··· 12 다음