300x250

2025/03/17 4

추론통계

1. 가설검정 (Hypothesis Testing)출제빈도: ★★★★★ (매우 자주 출제됨)핵심 개념: 모집단의 특성을 표본을 통해 검정하는 방법(1) 기본 개념귀무가설 (H0) vs 대립가설 (H1)H1H_1H0H_01종 오류 (Type I Error) & 2종 오류 (Type II Error)유의수준 (α)과 검정력 (Power)α\alpha(2) 주요 가설검정 기법단일표본 Z-검정: 모집단의 평균이 특정 값과 같은지 검정단일표본 t-검정: 모집단의 분산이 알려지지 않았을 때 평균 검정독립표본 t-검정: 두 모집단의 평균 차이 검정대응표본 t-검정: 같은 집단의 전후 비교 (Before-After)카이제곱 검정: 범주형 변수 간 독립성 검정2. 신뢰구간 (Confidence Interval)출제빈도:..

빅분기 스터디 내용1

1과목: 빅데이터 분석기획① 빅데이터의 정의와 특징 (3V → 5V)3VVolume(규모): 데이터의 크기Variety(다양성): 정형, 비정형, 반정형 데이터Velocity(속도): 빠르게 생성되고 처리되는 데이터추가된 특성(5V): Veracity(신뢰성), Value(가치)암기 TIP: "빅데이터는 크고(Volume), 다양하며(Variety), 빠르고(Velocity), 신뢰할 수 있어야(Veracity), 가치(Value)를 창출한다."데이터 분석 프로세스(CRISP-DM) 6단계비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포암기 TIP: "비데준 모평배" (비즈니스 이해→데이터 이해→준비→모델링→평가→배포)빅데이터 기술구조 및 플랫폼하둡(Hadoop): HDFS(분산..

P-value vs Posterior Tail-Area Probability

1. P-value와 Posterior Tail-Area Probability 비교P-value (빈도주의적 접근)귀무가설 (H0H_0H0​)이 참이라고 가정할 때, 관측된 데이터보다 극단적인 값이 나올 확률. 아래와 같은 형태.빈도주의(Frequentist) 가설 검정에서 사용.Posterior Tail-Area Probability (베이지안 접근)사후 확률 분포에서 특정 값 이상(또는 이하)의 확률. 아래와 같은 형태. 베이지안 추론에서 사용되며, 사전 정보와 데이터로부터 업데이트된 확률을 기반으로 함2. 차이점P-value: 가설(귀무가설)이 참이라는 전제 하에서 데이터를 해석.Posterior Tail-Area Probability: 가설보다는 사후 확률 분포에서 특정 값이 차지하는 비율을 의미..

피어슨 상관계수 vs 스피어만 순위 상관계수

공통점두 변수 간의 상관 관계(연관성) 를 측정하는 방법이다.결과 값은 -1 ~ 1 사이이다.1: 완벽한 양의 상관-1: 완벽한 음의 상관0: 관계 없음1. 피어슨 상관계수 (Pearson Correlation Coefficient)특징연속형(수치) 데이터에서 사용두 변수 간의 직선적(선형) 관계를 측정평균과 표준편차를 이용하여 계산이상치(극단값)에 민감함사용 예시키와 몸무게의 관계온도와 아이스크림 판매량핵심 요약"정확한 수치 데이터에서 직선 관계를 분석할 때 사용"2. 스피어만 순위 상관계수 (Spearman Rank Correlation)특징순위(서열) 데이터에서 사용 (즉, 숫자의 크기가 아니라 순서가 중요할 때)두 변수 간의 비선형 관계(곡선적 관계)도 측정 가능데이터의 크기 차이보다는 순서(랭킹..

SMALL