데이터 분석가:Applied Data Analytics/용어편

피어슨 상관계수 vs 스피어만 순위 상관계수

데이터분석 2025. 3. 17. 09:59

공통점

  1. 두 변수 간의 상관 관계(연관성) 를 측정하는 방법이다.
  2. 결과 값은 -1 ~ 1 사이이다.
    • 1: 완벽한 양의 상관
    • -1: 완벽한 음의 상관
    • 0: 관계 없음

1. 피어슨 상관계수 (Pearson Correlation Coefficient)

특징

  1. 연속형(수치) 데이터에서 사용
  2. 두 변수 간의 직선적(선형) 관계를 측정
  3. 평균과 표준편차를 이용하여 계산
  4. 이상치(극단값)에 민감함

사용 예시

  • 키와 몸무게의 관계
  • 온도와 아이스크림 판매량

핵심 요약

  • "정확한 수치 데이터에서 직선 관계를 분석할 때 사용"

2. 스피어만 순위 상관계수 (Spearman Rank Correlation)

특징

  1. 순위(서열) 데이터에서 사용 (즉, 숫자의 크기가 아니라 순서가 중요할 때)
  2. 두 변수 간의 비선형 관계(곡선적 관계)도 측정 가능
  3. 데이터의 크기 차이보다는 순서(랭킹)가 유지되는지를 측정
  4. 이상치(극단값)에 덜 민감함

사용 예시

  • 학생들의 시험 성적 순위와 공부 시간 순위 간의 관계
  • 영화 평점 순위와 흥행 순위의 관계

핵심 요약

  • "순위 데이터에서 관계를 분석할 때 사용 (비선형 관계도 가능)"

3. 차이점 정리 

피어슨 상관계수 스피어만 순위 상관계수

데이터 타입 연속형(정확한 수치) 순위(서열) 데이터
관계 유형 직선(선형) 관계 곡선(비선형) 관계도 가능
계산 방법 평균, 표준편차 사용 데이터의 순위 사용
이상치 영향 크다 (민감) 작다 (덜 민감)
예제 키 vs 몸무게 성적 순위 vs 공부 시간 순위

 

  • 피어슨 = 숫자로 비교, 직선 관계 분석
  • 스피어만 = 순위로 비교, 비선형도 분석 가능
  • "피어슨은 숫자로 비교, 스피어만은 순위로 비교"