피어슨 상관계수 (Pearson Correlation Coefficient)
피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 통계량입니다. 이 값은 -1과 1 사이의 값을 가지며, 값의 크기에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다:
- 1: 완벽한 양의 선형 관계
- 0: 선형 관계가 없음
- -1: 완벽한 음의 선형 관계
피어슨 상관계수는 다음의 수식을 통해 계산됩니다:
r = ∑(X − X̄)(Y − Ȳ) / √[ ∑(X − X̄)² ∑(Y − Ȳ)² ]
여기서 X와 Y는 두 변수, X̄와 Ȳ는 각각의 평균입니다.
스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient)
스피어만 순위 상관계수는 두 변수 간의 모노톤 관계(단조 관계)를 측정합니다. 이 상관계수는 변수들의 순위를 이용해 계산되며, 피어슨 상관계수와 유사하게 -1과 1 사이의 값을 가집니다. 스피어만 순위 상관계수는 다음과 같이 계산됩니다:
ρ = 1 - (6 ∑ dᵢ²) / [ n(n² - 1) ]
여기서 dᵢ는 각 관측치의 순위 차이, n은 관측치의 개수입니다.
상호 정보 상관계수 (Mutual Information)
상호 정보 상관계수는 두 변수 간의 상호 의존성을 측정하는 정보 이론적 방법입니다. 이 값은 두 변수가 서로 얼마나 많은 정보를 공유하는지를 나타내며, 주로 범주형 데이터에서 사용됩니다. 상호 정보는 다음과 같이 정의됩니다:
I(X;Y) = ∑∑ p(x, y) log [ p(x, y) / (p(x)p(y)) ]
여기서 p(x, y)는 X와 Y의 결합 확률 분포, p(x)와 p(y)는 각각의 주변 확률 분포입니다. 상호 정보는 0 이상의 값을 가지며, 값이 클수록 두 변수 간의 의존성이 높음을 나타냅니다.
'TIL' 카테고리의 다른 글
본 캠프 45일차 TIL (0) | 2024.08.07 |
---|---|
본 캠프 44일차 TIL (0) | 2024.08.06 |
본 캠프 42일차 TIL (0) | 2024.08.05 |
본 캠프 41일차 TIL (0) | 2024.08.04 |
본 캠프 40일차 TIL (0) | 2024.08.02 |