320x100
728x90
선형 회귀모델의 기본 개념
선형 회귀는 독립변수(x)와 종속변수(y) 간의 선형적 관계를 모델링하는 통계적 방법입니다.
주요 유형
1. 단순선형회귀
- 수식: y = β₀ + β₁x + ε
- 독립변수가 1개인 경우
- 가장 기본적인 선형 회귀 모델
주택 가격 예측 모델
- 종속변수(y): 주택 가격
- 독립변수(x): 주택 면적
- 수식: 주택가격 = 5000만원 + 150만원×면적(평)
학생 성적 예측 모델
- 종속변수(y): 기말고사 점수
- 독립변수(x): 공부 시간
- 수식: 기말점수 = 40점 + 5점×공부시간(시간)
월별 매출 예측 모델
- 종속변수(y): 월 매출액
- 독립변수(x): 광고 비용
- 수식: 월매출 = 1000만원 + 2×광고비용
2. 다중선형회귀
- 수식: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε
- 독립변수가 2개 이상인 경우
- 여러 요인의 영향을 동시에 분석
주택 가격 예측 모델
- 종속변수(y): 주택 가격
- 독립변수(x): 면적, 층수, 역세권 거리, 건물 연식
- 수식: 주택가격 = 5000만원 + 150만원×면적 - 100만원×역거리 + 200만원×층수 - 50만원×연식
학생 성적 예측 모델
- 종속변수(y): 기말고사 점수
- 독립변수(x): 공부시간, 출석률, 과제 제출 횟수, 중간고사 점수
- 수식: 기말점수 = 20점 + 3점×공부시간 + 0.3점×출석률 + 2점×과제제출 + 0.5×중간점수
월별 매출 예측 모델
- 종속변수(y): 월 매출액
- 독립변수(x): 광고비용, 방문객수, 프로모션 횟수, 계절성 지수
- 수식: 월매출 = 1000만원 + 1.5×광고비용 + 0.1×방문객수 + 100만원×프로모션횟수 + 50만원×계절성지수
모델의 구성요소
1. 변수
- 종속변수(y): 예측하고자 하는 목표값
- 독립변수(x): 예측에 사용되는 특성들
- 절편(β₀): y절편
- 계수(β₁~βₙ): 각 독립변수의 영향력
- 오차항(ε): 예측값과 실제값의 차이
2. 주요 가정
- 선형성: 변수 간 선형관계
- 독립성: 오차의 독립
- 등분산성: 오차의 분산 일정
- 정규성: 오차의 정규분포
장점
- 해석이 용이
- 계산이 단순
- 과적합 위험 낮음
- 예측력이 안정적
단점
- 비선형 관계 표현 한계
- 이상치에 민감
- 다중공선성 문제
- 변수 간 상호작용 고려 어려움
실무 적용
1. 모델 구축 단계
- 데이터 전처리
- 변수 선택
- 모델 학습
- 성능 평가
- 모델 개선
2. 평가 지표
- R-squared
- 조정된 R-squared
- MSE/RMSE
- MAE
- 잔차 분석
3. 주의사항
- 데이터 품질 확인
- 이상치 처리
- 변수 스케일링
- 다중공선성 검토
주요 선형 회귀 그래프 유형
1. 산점도와 회귀선
- x축: 독립변수
- y축: 종속변수
- 데이터 포인트들이 점으로 표시
- 직선 형태의 회귀선이 데이터를 관통
2. 잔차 그래프
- x축: 예측값
- y축: 잔차(실제값 - 예측값)
- 이상적으로는 0을 중심으로 무작위 분포
3. Q-Q plot
- 정규성 가정 확인용
- x축: 이론적 분위수
- y축: 표본 분위수
- 정규분포 시 45도 직선 형태
4. 레버리지 플롯
- 영향력이 큰 관측치 식별
- x축: 레버리지 값
- y축: 표준화된 잔차
이러한 그래프들은 Python의 matplotlib, seaborn 또는 R의 ggplot2 등을 사용하여 시각화할 수 있습니다.
'데이터 분석가:Applied Data Analytics > ADsP' 카테고리의 다른 글
비선형 회귀 모델 (0) | 2025.02.22 |
---|---|
회귀분석에서 연속형 종속변수를 예측하는 방법 (0) | 2025.02.22 |
회귀분석은 종속변수가 연속형일때 사용 (0) | 2025.02.22 |
확률과 통계 (0) | 2025.02.20 |
ADsP 내용 용어정리-(Accuracy와 Precision) (0) | 2025.02.19 |