본문 바로가기

전체 글103

본 캠프 54일차 TIL Statistical Method: 통계적 방법Parametric 가우시안 분포 등 미리 정해진 확률 분포를 가정하여 데이터를 분석하는 방법이다.Gaussian Density Estimation 데이터를 하나의 가우시안 분포로 근사하여 분석한다.Mixture of Gaussian Density Estimation 다수의 가우시안 분포를 사용하여 분석한다.Non-parametric 미리 정해진 확률 분포를 가정하지 않고, 관측된 데이터 자체로부터 확률 분포를 추정한다.Histogram 데이터의 구간별 개수를 세어 확률을 추정한다.Kernel-density Estimation 각 데이터 포인트에 개별 확률 분포를 적용하여 전체 확률 분포를 추정한다.단점적절한 확률 분포를 찾기 어렵고, 다차원 데이터에 잘 적.. 2024. 8. 16.
이상탐지 1부 정상과 비정상, 그리고 이상탐지 보호되어 있는 글 입니다. 2024. 8. 14.
본 캠프 51일차 TIL 1. 이상 탐지의 정의이상 탐지는 특이한 값이나 보기 드문 사건을 탐지하는 과정으로, 정상과 다른 데이터 패턴을 찾아내는 것이 목적입니다. 이를 통해 조기 경고를 보내고 근본 원인을 해결하는 데 사용됩니다.2. Novelty와 OutlierNovelty는 이전에 본 적 없는 새로운 데이터로, 학습 데이터에 포함되지 않은 데이터를 탐지하는 것Outlier는 기존 데이터와 비교해 확연히 다른 데이터로, 학습 데이터 내에서 다르거나 벗어난 데이터를 제거하는 것3. 방법론 차이Novelty Detection은 정상 데이터만으로 학습한 후 새로운 입력 데이터를 검사합니다.Outlier Detection은 정상 및 이상 데이터를 모두 학습하고, 학습 데이터 내에서 벗어난 데이터를 제거합니다.4. 이상 탐지의 어려움.. 2024. 8. 13.
본 캠프 50일차 TIL 이상치(Outlier)는 데이터 분석에서 관찰된 값들이 대부분의 데이터와 비교했을 때 상당히 다른 값을 가지는 데이터를 의미한다. 이상치는 데이터의 분포에서 벗어난 값으로, 데이터의 분석 결과에 큰 영향을 미칠 수 있기 때문에 이를 식별하고 처리하는 것이 매우 중요하다.이상치의 원인이상치는 여러 가지 원인으로 인해 발생할 수 있다. 주요 원인으로는 다음과 같은 것들이 있다 1. 측정 오류데이터 수집 과정에서 발생할 수 있는 오류로, 잘못된 장비 설정, 인간의 실수, 시스템 오류 등이 이상치를 유발할 수 있다.2. 데이터 입력 오류데이터를 수동으로 입력하는 과정에서 발생하는 오류로, 잘못된 값이 입력되면 이상치가 발생할 수 있다.3. 자연적인 변동실제로 발생하는 극단적인 상황으로 인해 이상치가 나타날 수 .. 2024. 8. 12.
본 캠프 47일차 TIL 로지스틱 회귀의 주요 개념이진 분류(Binary Classification):로지스틱 회귀는 두 가지 가능한 결과(예: 성공/실패, 참/거짓, 예/아니오) 중 하나를 예측하는 이진 분류 문제에 사용된다.로짓 함수(Logit Function):로지스틱 회귀는 종속 변수를 예측하기 위해 로짓 함수를 사용한다. 로짓 함수는 확률을 로짓(logit)으로 변환한다.시그모이드 함수(Sigmoid Function):로지스틱 회귀의 핵심은 선형 회귀에서 얻은 결과를 시그모이드 함수에 통과시켜 0과 1 사이의 값을 갖는 확률로 변환하는 것이다.확률 예측:시그모이드 함수의 출력은 0과 1 사이의 값으로, 이 값은 특정 클래스에 속할 확률을 나타낸다.예를 들어, 0.7이라는 값이 나오면 이 샘플이 클래스 1에 속할 확률이 .. 2024. 8. 9.
본 캠프 46일차 TIL 오늘 배운 것모수의 추정모수의 추정은 모집단의 특성을 나타내는 모수를 표본 데이터를 이용해 추정하는 과정입니다. 모수에는 평균, 분산, 비율 등이 포함됩니다.점추정(Point Estimation): 모집단의 모수를 단일 값으로 추정하는 방법입니다. 예를 들어, 표본 평균은 모집단 평균의 점추정량이 됩니다.구간추정(Interval Estimation): 모집단의 모수를 특정 신뢰 수준 하에 하나의 구간으로 추정하는 방법입니다. 예를 들어, 모집단 평균의 구간추정은 특정 신뢰 수준에서 평균이 포함될 것으로 기대되는 값의 범위를 제공합니다.가설검정에서의 개념가설검정(Hypothesis Testing)은 모집단에 대한 주장이나 가설을 표본 데이터를 사용하여 검증하는 통계적 방법입니다.1. 귀무가설(Null Hy.. 2024. 8. 9.