-
공분산과 상관계수ML&DL&AI/통계 2024. 6. 13. 13:53728x90
공분산(Covariance)
확률 변수가 하나일때 분산을 계산할 수 있습니.
분산은 단일 변수의 값들이 평균으로부터 얼마나 떨어져 있는지를 나타냅니다.
공분산의 공식
분산과 마찬가지로, 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지 나타낸다.
평균값의 위치와 표본 위치 사이의 사각형 면적을 사용한다.
공분산의 경우 데이터의 위치에 따라 부호가 다르게 반영된다.
- 양수 부호 : 데이터가 1사분면과 3사분면에 위치할 때 공분산은 양수입니다.
이는 두 변수가 같은 방향으로 변동함을 의미합니다. - 음수 부호 : 데이터가 2사분면과 4사분면에 위치할 때 공분산은 음수입니다.
이는 두 변수가 반대 방향으로 변동함을 의미합니다.
공분산은 데이터가 어떻게 분포되어 있는지에 대한 크기와 방향성을 같이 보여준다.
- 크기 : 공분산의 크기는 데이터가 원점에서 얼마나 멀리 떨어져 있는지를 나타냅니다.
큰 값은 데이터의 변동성이 크다는 것을 의미합니다. - 방향 : 공분산의 부호는 데이터의 변동 방향을 나타냅니다.
양수는 같은 방향으로, 음수는 반대 방향으로 변동함을 의미합니다.
상관계수(Correlation Coefficient)
상관계수는 두 변수 간의 선형 관계를 나타내는 척도로, 공분산을 두 변수의 표준편차로 나누어 계산합니다.
상관계수의 공식
피어슨의 상관 계수
왼쪽 부터 양의 상관 관계, 음의 상관관계, 상관관계 없음
공분산 행렬(Covariance Matrix)
공분산 행렬은 다변량 확률 변수의 공분산을 포함하는 대칭 행렬입니다.
기계 학습 및 통계학에서 여러 변수 간의 관계를 이해하고 분석하는 도구로 사용됩니다.
다변수 확률 변수(벡터 형태의 표본 값)를 가정하는 경우, 각 변수 쌍에 대한 공분산을 계산하여 공분산 행렬을 구성합니다.
공분산과 독립
두 변수 X와 가 독립이면, 그 공분산은 0입니다.
이는 독립 변수들 사이에 선형 관계가 없음을 의미합니다.
그러나, 공분산이 0이라고 해서 두 변수가 독립이라는 것을 의미하지는 않습니다.
공분산이 0이더라도 두 변수 간에 비선형 관계가 있을 수 있습니다.
예를 들어, Y= X²인 경우, 와 의 공분산은 0이지만, 이들은 독립이 아닙니다.
728x90 - 양수 부호 : 데이터가 1사분면과 3사분면에 위치할 때 공분산은 양수입니다.