320x100
728x90
1과목: 빅데이터 분석기획
① 빅데이터의 정의와 특징 (3V → 5V)
- 3V
- Volume(규모): 데이터의 크기
- Variety(다양성): 정형, 비정형, 반정형 데이터
- Velocity(속도): 빠르게 생성되고 처리되는 데이터
- 추가된 특성(5V): Veracity(신뢰성), Value(가치)
암기 TIP: "빅데이터는 크고(Volume), 다양하며(Variety), 빠르고(Velocity), 신뢰할 수 있어야(Veracity), 가치(Value)를 창출한다."
데이터 분석 프로세스(CRISP-DM) 6단계
- 비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포
암기 TIP: "비데준 모평배" (비즈니스 이해→데이터 이해→준비→모델링→평가→배포)
빅데이터 기술구조 및 플랫폼
- 하둡(Hadoop): HDFS(분산 저장), MapReduce(병렬 처리), YARN(자원 관리)
- ETL: 데이터 추출(Extract) → 변환(Transform) → 적재(Load)
- 클라우드 서비스 유형:
- IaaS(Infrastructure): 하드웨어 제공
- PaaS: 플랫폼 제공
- SaaS: 소프트웨어 서비스 제공
암기 TIP: "하둡은 저장(HDFS), 처리(MapReduce), 관리(YARN)"
데이터 웨어하우스 vs 데이터 마트 vs 데이터 레이크
구분 | 특징 |
웨어하우스 | 전사적, 구조화된 데이터 저장소 |
마트 | 특정 부서·업무별 소규모 저장소 |
레이크 | 원본 그대로의 다양한 데이터를 저장 |
암기 TIP:
- 웨어하우스: 전사적 창고
- 마트: 작은 가게 (부서 단위)
- 레이크: 모든 데이터를 담는 호수 (원본 그대로 저장)
데이터 품질 관리
- 품질 기준: 정확성, 완전성, 일관성, 최신성, 유효성
- 결측치 처리법:
- 제거법(drop)
- 평균값 또는 중앙값 대체법(fillna)
암기 TIP: "정완일최유" (정확성, 완전성, 일관성, 최신성, 유효성)
탐색적 데이터 분석 (EDA)
- 목적: 데이터 특성 파악, 이상치 탐지, 변수 간 관계 파악
- 방법론:
- 시각화: 히스토그램(histogram), 산점도(scatter plot), 박스플롯(boxplot)
- 통계량 분석: 평균(mean), 중앙값(median), 분산, 표준편차
암기 TIP: "EDA는 시각적으로 확인하고 통계로 검증한다"
결측치 및 이상치 처리 방법
문제 | 주요 방법 |
결측치 | 삭제법(dropna), 평균·중앙값 대체법(fillna) |
이상치(outlier) | Z-score, IQR 방법 |
암기 TIP: "결측치는 채우거나 버리고, 이상치는 범위로 잡는다."
통계학 기본 개념
- 중심극한정리(CLT): 표본 크기가 커질수록 표본평균이 정규분포에 근사함.
- 가설검정
- 귀무가설(H0) vs 대립가설(H1)
- p-value < 유의수준(0.05) 이면 귀무가설 기각
암기 TIP: "P값 작으면 귀무가설 기각!"
머신러닝 모델링 개념 및 알고리즘
지도학습 vs 비지도학습
학습방식 | 특징 | 알고리즘 예시 |
지도학습 | 정답(label) 있음 | 선형회귀, 로지스틱 회귀, 결정트리 |
비지도학습 | 정답 없음. 패턴 발견 목적 | 군집분석(K-means 등), PCA |
주요 알고리즘 특징 요약
- 선형회귀(linear regression): 연속형 예측 모델
- 로지스틱 회귀(logistic regression): 이진 분류 확률 예측 모델
- 결정트리(decision tree): 규칙 기반 분류·회귀 모델
- 랜덤 포레스트(random forest): 다수 결정트리를 앙상블한 모델
- KNN(K-nearest neighbor): 가장 가까운 이웃 기반 분류 모델
- 서포트 벡터 머신(SVM): 마진 최대화 분류 모델
과적합 방지 방법
- 교차검증(cross-validation)
- 정규화(regularization)
- 조기종료(early stopping)
암기 TIP: "과적합 방지는 교차검증과 정규화로 해결!"
군집분석 및 연관규칙 분석 개념
군집분석(clustering)
- K-means 군집화는 중심점과 거리 기반으로 군집 형성.
- 실루엣 계수(silhouette coefficient)는 군집의 품질 평가 지표.
연관규칙 분석(Apriori 알고리즘)
- 지지도(support): 항목이 함께 등장하는 빈도 비율
- 신뢰도(confidence): 조건부 확률로 연관성 측정
암기 TIP: "연관규칙은 지지도와 신뢰도로 평가한다."
성능 평가 지표 요약
회귀모델 평가 지표:
- MAE(평균 절대오차): 오차 절댓값 평균
- MSE/RMSE(Root Mean Squared Error): 오차 제곱합 기반 평가 지표
분류모델 평가 지표:
- 정확도(accuracy): 전체 중 맞춘 비율
- 정밀도(precision): 예측한 것 중 실제 맞은 비율
- 재현율(recall): 실제 참인 것 중 맞춘 비율
- F1-score: 정밀도와 재현율의 조화평균
ROC 곡선/AUC:
- ROC 곡선은 민감도와 특이도의 관계를 나타내며 AUC 값이 클수록 좋은 모델임.
시계열 예측모델 평가 지표:
지표명 | 설명 |
MAE | 평균 절대 오차 |
RMSE | 평균 제곱근 오차 |
MAPE | 평균 절대 퍼센트 오차 |
암기 TIP: "오차 작을수록 예측 정확성 높다!"
최신 트렌드 및 법률 개념 정리 (추가 핵심 개념)
개인정보 보호 관련 법률(GDPR 등):
개인정보 수집·처리 시 동의 및 보호 의무 준수 필요함.
클라우드 서비스 유형 비교:
IaaS(Infrastructure): 서버 등 인프라 제공
PaaS(Platform): 개발환경 제공
SaaS(Software): 소프트웨어 서비스 제공
최신 기술 용어 정의:
엣지 컴퓨팅(edge computing): 데이터를 생성된 위치에서 바로 처리하는 기술
디지털 트윈(digital twin): 실제 환경을 가상환경에서 복제하여 모니터링하는 기술
기억하기 쉬운 전체 암기 팁 요약:
- 빅데이터 특성: 크고 다양하며 빠르게 생성된다 (3V). 추가로 가치와 신뢰성이 중요하다.
- CRISP-DM 프로세스: "비데준 모평배"
- 하둡 구성요소: 저장(HDFS), 처리(MapReduce), 관리(YARN)
- EDA 목적: 데이터를 보고 패턴 찾고 이상치를 잡는다.
- 결측치/이상치 처리: 결측치는 채우거나 버리고, 이상치는 범위로 잡는다.
- 통계적 가설검정: P값 작으면 귀무가설 기각!
- 지도 vs 비지도 학습: 지도학습은 답이 있고, 비지도는 답 없이 패턴 찾는다.
- 과적합 방지법: 교차검증과 정규화로 해결한다.
- 연관규칙 분석: 자주 나오면 지지도 높고 함께 나오면 신뢰도 높다.
- 모델 성능 평가 지표: 오차 작을수록 좋고(F1-score 높을수록 우수), ROC 곡선은 AUC 값 클수록 좋다.
- 클라우드 서비스 구분(IaaS/PaaS/SaaS) 인프라→플랫폼→소프트웨어 순으로 서비스 수준 상승.
'데이터 분석가:Applied Data Analytics > 자격증(ADsP,빅분기 등)' 카테고리의 다른 글
빅분기필기-고급 분석기법 (0) | 2025.03.25 |
---|---|
추론통계 (0) | 2025.03.17 |
빅분기 계산문제 (0) | 2025.03.15 |
빅분기 스터디 1st (0) | 2025.03.09 |
주말 빅분기 공부 계획 (1) | 2025.03.09 |