데이터 분석가:Applied Data Analytics/ADsP

확률과 통계

데이터분석 2025. 2. 20. 23:09
320x100
728x90

고등학교 확률과 통계는 사건의 경우의 수 계산 → 확률 분석 → 데이터의 특성 분석 → 통계적 검정의 흐름을 가집니다.

ADsP 시험에서도 확률, 통계, 가설 검정이 핵심 개념이므로 이 기본기를 다지면 큰 도움이 됩니다.

1. 경우의 수

  • 합의 법칙: 둘 이상의 사건 중 하나가 발생하는 경우 → 더하기
  • 곱의 법칙: 연속적으로 선택해야 하는 경우 → 곱하기
  • 순열(Permutation, P(n,r)P(n, r))
    • 서로 다른 nn개 중 rr개를 순서 있게 배열하는 방법
    • 공식: P(n,r)=n!(n−r)!P(n, r) = \frac{n!}{(n-r)!}
  • 조합(Combination, C(n,r)C(n, r))
    • 서로 다른 nn개 중 rr개를 순서 없이 선택하는 방법
    • 공식: C(n,r)=n!r!(n−r)!C(n, r) = \frac{n!}{r!(n-r)!}

2. 확률 (Probability)

  • 확률의 정의: P(A)=A가 일어날 경우의 수전체 경우의 수P(A) = \frac{\text{A가 일어날 경우의 수}}{\text{전체 경우의 수}}
  • 곱셈법칙: 두 사건 A, B가 독립이면
    • P(A∩B)=P(A)×P(B)P(A \cap B) = P(A) \times P(B)
  • 조건부 확률: 어떤 사건이 일어난 후, 다른 사건이 일어날 확률
    • P(A∣B)=P(A∩B)P(B)P(A | B) = \frac{P(A \cap B)}{P(B)}
  • 독립 사건과 종속 사건
    • 독립 사건: 한 사건이 다른 사건의 발생에 영향을 주지 않음
    • 종속 사건: 한 사건이 다른 사건의 발생에 영향을 줌

3. 통계 (Statistics)

대푯값과 산포도

  • 대푯값: 자료를 대표하는 값
    • 평균(Mean, xˉ\bar{x}): xˉ=∑xin\bar{x} = \frac{\sum x_i}{n}
    • 중앙값(Median): 데이터를 크기순으로 정렬했을 때 중앙에 위치한 값
    • 최빈값(Mode): 가장 자주 나오는 값
  • 산포도: 데이터가 퍼져 있는 정도
    • 분산(Variance, s2s^2): s2=∑(xi−xˉ)2ns^2 = \frac{\sum (x_i - \bar{x})^2}{n}
    • 표준편차(Standard Deviation, ss): s=s2s = \sqrt{s^2}

4. 확률 분포와 정규분포

  • 이항분포(Binomial Distribution): 성공 확률이 pp인 시행을 nn번 했을 때의 확률
    • 확률 함수: P(X=k)=C(n,k)pk(1−p)n−kP(X = k) = C(n, k) p^k (1-p)^{n-k}
  • 정규분포(Normal Distribution): 데이터가 종 모양으로 분포하는 경우
    • 평균 μ\mu, 표준편차 σ\sigma를 갖는 정규분포: N(μ,σ2)N(\mu, \sigma^2)
    • 표준정규분포: N(0,1)N(0, 1)

5. 표본과 신뢰구간

  • 표본: 모집단에서 일부를 선택한 데이터
  • 표본 평균의 분포: 표본 평균은 정규분포를 따름
  • 신뢰구간: 모집단의 평균을 포함할 것으로 예상되는 구간
    • 공식: xˉ±Zα/2×σn\bar{x} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}
    • 신뢰수준 95%일 때 Zα/2=1.96Z_{\alpha/2} = 1.96

6. 통계적 추정과 가설 검정

  • 귀무가설 (H0H_0): 기존의 주장 (예: "A와 B의 차이가 없다")
  • 대립가설 (H1H_1): 새로운 주장 (예: "A와 B의 차이가 있다")
  • 유의확률 (pp-value): 귀무가설이 맞을 확률
    • pp-값이 0.05 이하이면 귀무가설 기각 → 대립가설 채택
  • 검정 방법
    • 단측 검정: 한쪽 방향(크거나 작음)을 검정
    • 양측 검정: 두 방향(차이가 있음)을 검정