1. 오차(Error)
- 실제값과 예측값 간의 차이
- 오차는 모델이 알 수 없는 진짜 차이를 의미합니다.
- 수식으로 표현하면:
오차(Error)=실제값−진짜모집단의예측값
즉, 오차는 모델이 절대로 알 수 없는 이론적인 개념입니다.
2. 잔차(Residual)
- 실제 관측된 값과 모델이 실제로 예측한 값의 차이
- 잔차는 데이터를 가지고 계산할 수 있는 실제 값과 모델 예측값의 차이를 의미합니다.
- 수식으로 표현하면:
잔차(Residual)=실제관측값−모델의예측값
즉, 잔차는 모델이 실제 데이터에서 구할 수 있는 현실적인 값입니다.
- 오차(Error) → 모델이 절대 모르는 진짜 값과의 차이 (이론적 개념)
- 잔차(Residual) → 모델이 실제로 예측한 값과 데이터의 차이 (현실적 개념)
쉽게 오차는 '이상적인(모집단) 차이', 잔차는 '실제 관측된 데이터와의 차이
1. 릿지 회귀(Ridge Regression)
- 목적: 과적합(overfitting)을 방지하기 위해 회귀 계수 크기를 제한하는 방법
- 특징:
- 모든 변수의 계수를 유지하되, 계수 값의 크기를 작게 만든다.
- 계수를 0으로 만들지는 않는다. (모든 변수를 유지하면서 영향력을 줄임)
- 정규화 방법:
- L2 정규화 사용 → 제곱합을 최소화하는 방식
- 장점:
- 다중공선성(multicollinearity)이 있는 데이터를 잘 처리할 수 있다.
- 단점:
- 변수 선택 효과가 없다. 모든 변수를 그대로 남기기 때문에 해석성이 낮아질 수 있다.
- 핵심 기억법:
- "릿지 = 모든 변수 유지 + 계수만 작게 (0으로 만들지 않음)"
공식:
비용함수 = 최소제곱오차 + λ × (계수들의 제곱합)
2. 라쏘 회귀(Lasso Regression)
- 목적: 과적합 방지 및 중요하지 않은 변수를 제거해 간결한 모델을 만듦.
- 특징:
- 중요하지 않은 변수의 계수를 정확히 0으로 만든다. → 자동으로 변수를 선택하는 효과가 있다.
- 간결한 모델을 만들어 해석성을 높인다.
- 정규화 방법:
- L1 정규화 사용 → 절댓값의 합을 최소화하는 방식
- 장점:
- 변수 선택이 자동으로 이루어지기 때문에 중요한 변수만 남길 수 있어 해석성이 높다.
- 단점:
- 너무 많은 변수가 제거되면 중요한 변수가 빠질 수 있다.
- 핵심 기억법:
- "라쏘 = 중요 변수만 선택 + 불필요 변수 제거 (계수를 0으로 만들어)"
공식:
비용함수 = 최소제곱오차 + λ × (계수들의 절댓값 합)
3. 비교 요약표
구분 | 릿지 회귀 (Ridge) | 라쏘 회귀 (Lasso) |
정규화 방법 | L2 (제곱합 최소화) | L1 (절댓값 합 최소화) |
변수 선택 | ✗ (계수 0 안 됨) | ✓ (계수 0으로 됨) |
해석성 | 상대적으로 낮음 | 높음 (간결한 모델) |
특징 | 모든 변수 유지 | 변수 자동 선택 가능 |
사용 추천 상황 | 변수 간 상관성이 높은 경우 | 변수 개수가 많고, 핵심 변수만 남기고 싶을 때 |
- 릿지(Ridge) : "모든 변수는 유지, 크기만 축소"
- 라쏘(Lasso) : "불필요 변수는 제거, 핵심 변수만 남김"
4. ElasticNet(엘라스틱넷) 회귀
1. 개념
- 릿지(Ridge)와 라쏘(Lasso) 회귀의 장점을 결합한 회귀 분석 방법입니다.
- 릿지의 "모든 변수의 계수를 축소"하는 특성과 라쏘의 "불필요한 변수 제거" 특성을 혼합하여 사용합니다.
2. 특징
- 정규화 방식: L1 정규화(라쏘)와 L2 정규화(릿지)를 동시에 적용합니다.
- 변수 선택: 일부 변수 계수는 0으로 만들어 제거하고, 나머지는 값을 줄여 유지합니다.
- 활용 목적: 변수가 많고 변수 간 상관관계가 높을 때 특히 효과적입니다.
3. 수식
비용함수=최소제곱오차+λ×[(1−α)×(계수의제곱합)+α×(계수의절댓값합)]비용함수 = 최소제곱오차 + λ \times \big[(1 - α) \times (계수의 제곱합) + α \times (계수의 절댓값 합)\big]
비용함수=최소제곱오차+λ×[(1−α)×(계수의제곱합)+α×(계수의절댓값합)]
- α 값에 따라 라쏘와 릿지 비율을 조정할 수 있습니다.
- α = 0: 릿지(Ridge)
- α = 1: 라쏘(Lasso)
- 0 < α < 1: 엘라스틱넷(ElasticNet)
4. 비교표 정리
구분 | 릿지(Ridge) | 라쏘(Lasso) | 엘라스틱넷(ElasticNet) |
정규화 | L2 (제곱합) | L1 (절댓값합) | L1 + L2 혼합 |
변수 선택 여부 | X (모든 변수 유지) | O (일부 변수 제거) | O (일부 변수 제거 및 축소) |
추천 상황 | 변수 간 상관성 높음 | 변수 많고 핵심 변수 선별 필요 | 변수 많고 상관성 높음 |
'데이터 분석가:Applied Data Analytics' 카테고리의 다른 글
머신러닝 이해하기(분류) (1) | 2025.03.07 |
---|---|
캔바(Canva)란? (0) | 2025.03.06 |
데이터 기반 의사결정을 위한 확률 및 분포 5-1] (0) | 2025.03.06 |
구글 코렙 연결(Google Colab 연동) (0) | 2025.03.06 |
구글 코렙 한글적용(Google Colab 한글) (0) | 2025.03.06 |