로지스틱 회귀의 주요 개념
- 이진 분류(Binary Classification):
- 로지스틱 회귀는 두 가지 가능한 결과(예: 성공/실패, 참/거짓, 예/아니오) 중 하나를 예측하는 이진 분류 문제에 사용된다.
- 로짓 함수(Logit Function):
- 로지스틱 회귀는 종속 변수를 예측하기 위해 로짓 함수를 사용한다. 로짓 함수는 확률을 로짓(logit)으로 변환한다.
- 시그모이드 함수(Sigmoid Function):
- 로지스틱 회귀의 핵심은 선형 회귀에서 얻은 결과를 시그모이드 함수에 통과시켜 0과 1 사이의 값을 갖는 확률로 변환하는 것이다.
- 확률 예측:
- 시그모이드 함수의 출력은 0과 1 사이의 값으로, 이 값은 특정 클래스에 속할 확률을 나타낸다.
- 예를 들어, 0.7이라는 값이 나오면 이 샘플이 클래스 1에 속할 확률이 70%라는 뜻이다.
- 결정 경계(Decision Boundary):
- 로지스틱 회귀는 예측 확률이 0.5 이상이면 클래스 1로, 0.5 미만이면 클래스 0으로 분류하는 방식으로 이진 분류를 수행한다.
로지스틱 회귀의 학습 과정
- 목적 함수:
- 로지스틱 회귀의 목적은 로짓 함수의 계수를 학습하여 주어진 데이터에 대한 확률을 최대화하는 것이다.
- 최적화:
- 비용 함수를 최소화하기 위해 경사하강법(Gradient Descent)과 같은 최적화 알고리즘이 사용된다.
로지스틱 회귀의 장점과 단점
- 장점:
- 이해하기 쉽고 구현이 간단하다.
- 예측 결과가 확률로 제공되므로 해석이 용이하다.
- 과적합(Overfitting)을 피하기 위해 L1, L2 정규화를 적용할 수 있다.
- 단점:
- 선형적으로 구분되지 않는 데이터에서는 성능이 떨어질 수 있다.
- 다중 클래스 문제(Multiclass Classification)에서는 다소 복잡한 기법이 필요하다(예: 일대다(One-vs-All) 방법).
로지스틱 회귀의 확장
- 다중 로지스틱 회귀(Multinomial Logistic Regression):
- 세 개 이상의 클래스가 있는 문제에서 사용되며, 각 클래스에 대한 확률을 예측한다.
- 순서형 로지스틱 회귀(Ordinal Logistic Regression):
- 순서가 있는 범주형 변수를 예측하는 데 사용된다.
'TIL' 카테고리의 다른 글
본 캠프 51일차 TIL (0) | 2024.08.13 |
---|---|
본 캠프 50일차 TIL (0) | 2024.08.12 |
본 캠프 46일차 TIL (0) | 2024.08.09 |
본 캠프 45일차 TIL (0) | 2024.08.07 |
본 캠프 44일차 TIL (0) | 2024.08.06 |