공통점
- 두 변수 간의 상관 관계(연관성) 를 측정하는 방법이다.
- 결과 값은 -1 ~ 1 사이이다.
- 1: 완벽한 양의 상관
- -1: 완벽한 음의 상관
- 0: 관계 없음
1. 피어슨 상관계수 (Pearson Correlation Coefficient)
특징
- 연속형(수치) 데이터에서 사용
- 두 변수 간의 직선적(선형) 관계를 측정
- 평균과 표준편차를 이용하여 계산
- 이상치(극단값)에 민감함
사용 예시
- 키와 몸무게의 관계
- 온도와 아이스크림 판매량
핵심 요약
- "정확한 수치 데이터에서 직선 관계를 분석할 때 사용"
2. 스피어만 순위 상관계수 (Spearman Rank Correlation)
특징
- 순위(서열) 데이터에서 사용 (즉, 숫자의 크기가 아니라 순서가 중요할 때)
- 두 변수 간의 비선형 관계(곡선적 관계)도 측정 가능
- 데이터의 크기 차이보다는 순서(랭킹)가 유지되는지를 측정
- 이상치(극단값)에 덜 민감함
사용 예시
- 학생들의 시험 성적 순위와 공부 시간 순위 간의 관계
- 영화 평점 순위와 흥행 순위의 관계
핵심 요약
- "순위 데이터에서 관계를 분석할 때 사용 (비선형 관계도 가능)"
3. 차이점 정리
피어슨 상관계수 스피어만 순위 상관계수
데이터 타입 | 연속형(정확한 수치) | 순위(서열) 데이터 |
관계 유형 | 직선(선형) 관계 | 곡선(비선형) 관계도 가능 |
계산 방법 | 평균, 표준편차 사용 | 데이터의 순위 사용 |
이상치 영향 | 크다 (민감) | 작다 (덜 민감) |
예제 | 키 vs 몸무게 | 성적 순위 vs 공부 시간 순위 |
- 피어슨 = 숫자로 비교, 직선 관계 분석
- 스피어만 = 순위로 비교, 비선형도 분석 가능
- "피어슨은 숫자로 비교, 스피어만은 순위로 비교"
'데이터 분석가:Applied Data Analytics > 용어편' 카테고리의 다른 글
ARPU, LTV란? (0) | 2025.03.24 |
---|---|
P-value vs Posterior Tail-Area Probability (0) | 2025.03.17 |
Scikit-learn(사이-킷 런), TensorFlow(텐서플로우) (0) | 2025.03.02 |
GCP란? (0) | 2025.01.19 |
CTE (Common Table Expression) 란? (0) | 2025.01.16 |