본문 바로가기
TIL

본 캠프 43일차 TIL

by Data 학습자 2024. 8. 5.

피어슨 상관계수 (Pearson Correlation Coefficient)

피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 통계량입니다. 이 값은 -1과 1 사이의 값을 가지며, 값의 크기에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다:

  • 1: 완벽한 양의 선형 관계
  • 0: 선형 관계가 없음
  • -1: 완벽한 음의 선형 관계

피어슨 상관계수는 다음의 수식을 통해 계산됩니다:

r = ∑(X − X̄)(Y − Ȳ) / √[ ∑(X − X̄)² ∑(Y − Ȳ)² ]

여기서 X와 Y는 두 변수, X̄와 Ȳ는 각각의 평균입니다.

스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient)

스피어만 순위 상관계수는 두 변수 간의 모노톤 관계(단조 관계)를 측정합니다. 이 상관계수는 변수들의 순위를 이용해 계산되며, 피어슨 상관계수와 유사하게 -1과 1 사이의 값을 가집니다. 스피어만 순위 상관계수는 다음과 같이 계산됩니다:

ρ = 1 - (6 ∑ dᵢ²) / [ n(n² - 1) ]
 

여기서 dᵢ는 각 관측치의 순위 차이, n은 관측치의 개수입니다.

상호 정보 상관계수 (Mutual Information)

상호 정보 상관계수는 두 변수 간의 상호 의존성을 측정하는 정보 이론적 방법입니다. 이 값은 두 변수가 서로 얼마나 많은 정보를 공유하는지를 나타내며, 주로 범주형 데이터에서 사용됩니다. 상호 정보는 다음과 같이 정의됩니다:

I(X;Y) = ∑∑ p(x, y) log [ p(x, y) / (p(x)p(y)) ]
 

여기서 p(x, y)는 X와 Y의 결합 확률 분포, p(x)와 p(y)는 각각의 주변 확률 분포입니다. 상호 정보는 0 이상의 값을 가지며, 값이 클수록 두 변수 간의 의존성이 높음을 나타냅니다.

'TIL' 카테고리의 다른 글

본 캠프 45일차 TIL  (0) 2024.08.07
본 캠프 44일차 TIL  (0) 2024.08.06
본 캠프 42일차 TIL  (0) 2024.08.05
본 캠프 41일차 TIL  (0) 2024.08.04
본 캠프 40일차 TIL  (0) 2024.08.02