데이터 분석가:Applied Data Analytics

데이터 기반 의사결정을 위한 확률 및 분포 5-2]

데이터분석 2025. 3. 6. 15:37

1. 오차(Error)

  • 실제값과 예측값 간의 차이
  • 오차는 모델이 알 수 없는 진짜 차이를 의미합니다.
  • 수식으로 표현하면:

오차(Error)=실제값−진짜모집단의예측값

즉, 오차는 모델이 절대로 알 수 없는 이론적인 개념입니다.


2. 잔차(Residual)

  • 실제 관측된 값과 모델이 실제로 예측한 값의 차이
  • 잔차는 데이터를 가지고 계산할 수 있는 실제 값과 모델 예측값의 차이를 의미합니다.
  • 수식으로 표현하면:

잔차(Residual)=실제관측값−모델의예측값

즉, 잔차는 모델이 실제 데이터에서 구할 수 있는 현실적인 값입니다.


  • 오차(Error)모델이 절대 모르는 진짜 값과의 차이 (이론적 개념)
  • 잔차(Residual)모델이 실제로 예측한 값과 데이터의 차이 (현실적 개념)

쉽게 오차는 '이상적인(모집단) 차이', 잔차는 '실제 관측된 데이터와의 차이


1. 릿지 회귀(Ridge Regression)

  • 목적: 과적합(overfitting)을 방지하기 위해 회귀 계수 크기를 제한하는 방법
  • 특징:
    • 모든 변수의 계수를 유지하되, 계수 값의 크기를 작게 만든다.
    • 계수를 0으로 만들지는 않는다. (모든 변수를 유지하면서 영향력을 줄임)
  • 정규화 방법:
    • L2 정규화 사용 → 제곱합을 최소화하는 방식
  • 장점:
    • 다중공선성(multicollinearity)이 있는 데이터를 잘 처리할 수 있다.
  • 단점:
    • 변수 선택 효과가 없다. 모든 변수를 그대로 남기기 때문에 해석성이 낮아질 수 있다.
  • 핵심 기억법:
    • "릿지 = 모든 변수 유지 + 계수만 작게 (0으로 만들지 않음)"

공식:

비용함수 = 최소제곱오차 + λ × (계수들의 제곱합)


2. 라쏘 회귀(Lasso Regression)

  • 목적: 과적합 방지 및 중요하지 않은 변수를 제거해 간결한 모델을 만듦.
  • 특징:
    • 중요하지 않은 변수의 계수를 정확히 0으로 만든다. → 자동으로 변수를 선택하는 효과가 있다.
    • 간결한 모델을 만들어 해석성을 높인다.
  • 정규화 방법:
    • L1 정규화 사용 → 절댓값의 합을 최소화하는 방식
  • 장점:
    • 변수 선택이 자동으로 이루어지기 때문에 중요한 변수만 남길 수 있어 해석성이 높다.
  • 단점:
    • 너무 많은 변수가 제거되면 중요한 변수가 빠질 수 있다.
  • 핵심 기억법:
    • "라쏘 = 중요 변수만 선택 + 불필요 변수 제거 (계수를 0으로 만들어)"

공식:

비용함수 = 최소제곱오차 + λ × (계수들의 절댓값 합)


3. 비교 요약표

구분 릿지 회귀 (Ridge) 라쏘 회귀 (Lasso)
정규화 방법 L2 (제곱합 최소화) L1 (절댓값 합 최소화)
변수 선택 ✗ (계수 0 안 됨) ✓ (계수 0으로 됨)
해석성 상대적으로 낮음 높음 (간결한 모델)
특징 모든 변수 유지 변수 자동 선택 가능
사용 추천 상황 변수 간 상관성이 높은 경우 변수 개수가 많고, 핵심 변수만 남기고 싶을 때
  • 릿지(Ridge) : "모든 변수는 유지, 크기만 축소"
  • 라쏘(Lasso) : "불필요 변수는 제거, 핵심 변수만 남김"

 


4. ElasticNet(엘라스틱넷) 회귀

1. 개념

  • 릿지(Ridge)와 라쏘(Lasso) 회귀의 장점을 결합한 회귀 분석 방법입니다.
  • 릿지의 "모든 변수의 계수를 축소"하는 특성과 라쏘의 "불필요한 변수 제거" 특성을 혼합하여 사용합니다.

2. 특징

  • 정규화 방식: L1 정규화(라쏘)와 L2 정규화(릿지)를 동시에 적용합니다.
  • 변수 선택: 일부 변수 계수는 0으로 만들어 제거하고, 나머지는 값을 줄여 유지합니다.
  • 활용 목적: 변수가 많고 변수 간 상관관계가 높을 때 특히 효과적입니다.

3. 수식

비용함수=최소제곱오차+λ×[(1−α)×(계수의제곱합)+α×(계수의절댓값합)]비용함수 = 최소제곱오차 + λ \times \big[(1 - α) \times (계수의 제곱합) + α \times (계수의 절댓값 합)\big]

비용함수=최소제곱오차+λ×[(1−α)×(계수의제곱합)+α×(계수의절댓값합)]

  • α 값에 따라 라쏘와 릿지 비율을 조정할 수 있습니다.
    • α = 0: 릿지(Ridge)
    • α = 1: 라쏘(Lasso)
    • 0 < α < 1: 엘라스틱넷(ElasticNet)

4. 비교표 정리

구분 릿지(Ridge) 라쏘(Lasso) 엘라스틱넷(ElasticNet)
정규화 L2 (제곱합) L1 (절댓값합) L1 + L2 혼합
변수 선택 여부 X (모든 변수 유지) O (일부 변수 제거) O (일부 변수 제거 및 축소)
추천 상황 변수 간 상관성 높음 변수 많고 핵심 변수 선별 필요 변수 많고 상관성 높음

 

 

 

데이터로 가치를 만드는 Steven, Follow on LinkedIn