데이터 분석가:Applied Data Analytics/ADsP

선형 회귀모델

데이터분석 2025. 2. 22. 18:22
320x100
728x90

선형 회귀모델의 기본 개념

선형 회귀는 독립변수(x)와 종속변수(y) 간의 선형적 관계를 모델링하는 통계적 방법입니다.

주요 유형

1. 단순선형회귀

  • 수식: y = β₀ + β₁x + ε
  • 독립변수가 1개인 경우
  • 가장 기본적인 선형 회귀 모델

주택 가격 예측 모델

  • 종속변수(y): 주택 가격
  • 독립변수(x): 주택 면적
  • 수식: 주택가격 = 5000만원 + 150만원×면적(평)

학생 성적 예측 모델

  • 종속변수(y): 기말고사 점수
  • 독립변수(x): 공부 시간
  • 수식: 기말점수 = 40점 + 5점×공부시간(시간)

월별 매출 예측 모델

  • 종속변수(y): 월 매출액
  • 독립변수(x): 광고 비용
  • 수식: 월매출 = 1000만원 + 2×광고비용

2. 다중선형회귀

  • 수식: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε
  • 독립변수가 2개 이상인 경우
  • 여러 요인의 영향을 동시에 분석

주택 가격 예측 모델

  • 종속변수(y): 주택 가격
  • 독립변수(x): 면적, 층수, 역세권 거리, 건물 연식
  • 수식: 주택가격 = 5000만원 + 150만원×면적 - 100만원×역거리 + 200만원×층수 - 50만원×연식

학생 성적 예측 모델

  • 종속변수(y): 기말고사 점수
  • 독립변수(x): 공부시간, 출석률, 과제 제출 횟수, 중간고사 점수
  • 수식: 기말점수 = 20점 + 3점×공부시간 + 0.3점×출석률 + 2점×과제제출 + 0.5×중간점수

월별 매출 예측 모델

  • 종속변수(y): 월 매출액
  • 독립변수(x): 광고비용, 방문객수, 프로모션 횟수, 계절성 지수
  • 수식: 월매출 = 1000만원 + 1.5×광고비용 + 0.1×방문객수 + 100만원×프로모션횟수 + 50만원×계절성지수

모델의 구성요소

1. 변수

  • 종속변수(y): 예측하고자 하는 목표값
  • 독립변수(x): 예측에 사용되는 특성들
  • 절편(β₀): y절편
  • 계수(β₁~βₙ): 각 독립변수의 영향력
  • 오차항(ε): 예측값과 실제값의 차이

2. 주요 가정

  • 선형성: 변수 간 선형관계
  • 독립성: 오차의 독립
  • 등분산성: 오차의 분산 일정
  • 정규성: 오차의 정규분포

장점

  • 해석이 용이
  • 계산이 단순
  • 과적합 위험 낮음
  • 예측력이 안정적

단점

  • 비선형 관계 표현 한계
  • 이상치에 민감
  • 다중공선성 문제
  • 변수 간 상호작용 고려 어려움

실무 적용

1. 모델 구축 단계

  1. 데이터 전처리
  2. 변수 선택
  3. 모델 학습
  4. 성능 평가
  5. 모델 개선

2. 평가 지표

  • R-squared
  • 조정된 R-squared
  • MSE/RMSE
  • MAE
  • 잔차 분석

3. 주의사항

  • 데이터 품질 확인
  • 이상치 처리
  • 변수 스케일링
  • 다중공선성 검토

주요 선형 회귀 그래프 유형

1. 산점도와 회귀선

  • x축: 독립변수
  • y축: 종속변수
  • 데이터 포인트들이 점으로 표시
  • 직선 형태의 회귀선이 데이터를 관통

2. 잔차 그래프

  • x축: 예측값
  • y축: 잔차(실제값 - 예측값)
  • 이상적으로는 0을 중심으로 무작위 분포

3. Q-Q plot

  • 정규성 가정 확인용
  • x축: 이론적 분위수
  • y축: 표본 분위수
  • 정규분포 시 45도 직선 형태

4. 레버리지 플롯

  • 영향력이 큰 관측치 식별
  • x축: 레버리지 값
  • y축: 표준화된 잔차

이러한 그래프들은 Python의 matplotlib, seaborn 또는 R의 ggplot2 등을 사용하여 시각화할 수 있습니다.