데이터 분석가:Applied Data Analytics/자격증(ADsP,빅분기 등)

빅분기 스터디 내용1

데이터분석 2025. 3. 17. 16:21
320x100
728x90

1과목: 빅데이터 분석기획

① 빅데이터의 정의와 특징 (3V → 5V)

  • 3V
    • Volume(규모): 데이터의 크기
    • Variety(다양성): 정형, 비정형, 반정형 데이터
    • Velocity(속도): 빠르게 생성되고 처리되는 데이터
  • 추가된 특성(5V): Veracity(신뢰성), Value(가치)

암기 TIP: "빅데이터는 크고(Volume), 다양하며(Variety), 빠르고(Velocity), 신뢰할 수 있어야(Veracity), 가치(Value)를 창출한다."

데이터 분석 프로세스(CRISP-DM) 6단계

  • 비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포

암기 TIP: "비데준 모평배" (비즈니스 이해→데이터 이해→준비→모델링→평가→배포)

빅데이터 기술구조 및 플랫폼

  • 하둡(Hadoop): HDFS(분산 저장), MapReduce(병렬 처리), YARN(자원 관리)
  • ETL: 데이터 추출(Extract) → 변환(Transform) → 적재(Load)
  • 클라우드 서비스 유형:
    • IaaS(Infrastructure): 하드웨어 제공
    • PaaS: 플랫폼 제공
    • SaaS: 소프트웨어 서비스 제공

암기 TIP: "하둡은 저장(HDFS), 처리(MapReduce), 관리(YARN)"

데이터 웨어하우스 vs 데이터 마트 vs 데이터 레이크

구분 특징
웨어하우스 전사적, 구조화된 데이터 저장소
마트 특정 부서·업무별 소규모 저장소
레이크 원본 그대로의 다양한 데이터를 저장

암기 TIP:

  • 웨어하우스: 전사적 창고
  • 마트: 작은 가게 (부서 단위)
  • 레이크: 모든 데이터를 담는 호수 (원본 그대로 저장)

데이터 품질 관리

  • 품질 기준: 정확성, 완전성, 일관성, 최신성, 유효성
  • 결측치 처리법:
    • 제거법(drop)
    • 평균값 또는 중앙값 대체법(fillna)

암기 TIP: "정완일최유" (정확성, 완전성, 일관성, 최신성, 유효성)

탐색적 데이터 분석 (EDA)

  • 목적: 데이터 특성 파악, 이상치 탐지, 변수 간 관계 파악
  • 방법론:
    • 시각화: 히스토그램(histogram), 산점도(scatter plot), 박스플롯(boxplot)
    • 통계량 분석: 평균(mean), 중앙값(median), 분산, 표준편차

암기 TIP: "EDA는 시각적으로 확인하고 통계로 검증한다"

결측치 및 이상치 처리 방법

문제 주요 방법
결측치 삭제법(dropna), 평균·중앙값 대체법(fillna)
이상치(outlier) Z-score, IQR 방법

암기 TIP: "결측치는 채우거나 버리고, 이상치는 범위로 잡는다."

통계학 기본 개념

  • 중심극한정리(CLT): 표본 크기가 커질수록 표본평균이 정규분포에 근사함.
  • 가설검정
    • 귀무가설(H0) vs 대립가설(H1)
    • p-value < 유의수준(0.05) 이면 귀무가설 기각

암기 TIP: "P값 작으면 귀무가설 기각!"

머신러닝 모델링 개념 및 알고리즘

지도학습 vs 비지도학습

학습방식 특징 알고리즘 예시
지도학습 정답(label) 있음 선형회귀, 로지스틱 회귀, 결정트리
비지도학습 정답 없음. 패턴 발견 목적 군집분석(K-means 등), PCA

주요 알고리즘 특징 요약

  • 선형회귀(linear regression): 연속형 예측 모델
  • 로지스틱 회귀(logistic regression): 이진 분류 확률 예측 모델
  • 결정트리(decision tree): 규칙 기반 분류·회귀 모델
  • 랜덤 포레스트(random forest): 다수 결정트리를 앙상블한 모델
  • KNN(K-nearest neighbor): 가장 가까운 이웃 기반 분류 모델
  • 서포트 벡터 머신(SVM): 마진 최대화 분류 모델

과적합 방지 방법

  • 교차검증(cross-validation)
  • 정규화(regularization)
  • 조기종료(early stopping)

암기 TIP: "과적합 방지는 교차검증과 정규화로 해결!"

군집분석 및 연관규칙 분석 개념

군집분석(clustering)

  • K-means 군집화는 중심점과 거리 기반으로 군집 형성.
  • 실루엣 계수(silhouette coefficient)는 군집의 품질 평가 지표.

연관규칙 분석(Apriori 알고리즘)

  • 지지도(support): 항목이 함께 등장하는 빈도 비율
  • 신뢰도(confidence): 조건부 확률로 연관성 측정

암기 TIP: "연관규칙은 지지도와 신뢰도로 평가한다."

성능 평가 지표 요약

회귀모델 평가 지표:

  • MAE(평균 절대오차): 오차 절댓값 평균
  • MSE/RMSE(Root Mean Squared Error): 오차 제곱합 기반 평가 지표

분류모델 평가 지표:

  • 정확도(accuracy): 전체 중 맞춘 비율
  • 정밀도(precision): 예측한 것 중 실제 맞은 비율
  • 재현율(recall): 실제 참인 것 중 맞춘 비율
  • F1-score: 정밀도와 재현율의 조화평균

ROC 곡선/AUC:

  • ROC 곡선은 민감도와 특이도의 관계를 나타내며 AUC 값이 클수록 좋은 모델임.

시계열 예측모델 평가 지표:

지표명 설명
MAE 평균 절대 오차
RMSE 평균 제곱근 오차
MAPE 평균 절대 퍼센트 오차

암기 TIP: "오차 작을수록 예측 정확성 높다!"

최신 트렌드 및 법률 개념 정리 (추가 핵심 개념)

개인정보 보호 관련 법률(GDPR 등):

개인정보 수집·처리 시 동의 및 보호 의무 준수 필요함.

클라우드 서비스 유형 비교:

IaaS(Infrastructure): 서버 등 인프라 제공

PaaS(Platform): 개발환경 제공

SaaS(Software): 소프트웨어 서비스 제공

최신 기술 용어 정의:

엣지 컴퓨팅(edge computing): 데이터를 생성된 위치에서 바로 처리하는 기술

디지털 트윈(digital twin): 실제 환경을 가상환경에서 복제하여 모니터링하는 기술

기억하기 쉬운 전체 암기 팁 요약:

  1. 빅데이터 특성: 크고 다양하며 빠르게 생성된다 (3V). 추가로 가치와 신뢰성이 중요하다.
  2. CRISP-DM 프로세스: "비데준 모평배"
  3. 하둡 구성요소: 저장(HDFS), 처리(MapReduce), 관리(YARN)
  4. EDA 목적: 데이터를 보고 패턴 찾고 이상치를 잡는다.
  5. 결측치/이상치 처리: 결측치는 채우거나 버리고, 이상치는 범위로 잡는다.
  6. 통계적 가설검정: P값 작으면 귀무가설 기각!
  7. 지도 vs 비지도 학습: 지도학습은 답이 있고, 비지도는 답 없이 패턴 찾는다.
  8. 과적합 방지법: 교차검증과 정규화로 해결한다.
  9. 연관규칙 분석: 자주 나오면 지지도 높고 함께 나오면 신뢰도 높다.
  10. 모델 성능 평가 지표: 오차 작을수록 좋고(F1-score 높을수록 우수), ROC 곡선은 AUC 값 클수록 좋다.
  11. 클라우드 서비스 구분(IaaS/PaaS/SaaS) 인프라→플랫폼→소프트웨어 순으로 서비스 수준 상승.

'데이터 분석가:Applied Data Analytics > 자격증(ADsP,빅분기 등)' 카테고리의 다른 글

빅분기필기-고급 분석기법  (0) 2025.03.25
추론통계  (0) 2025.03.17
빅분기 계산문제  (0) 2025.03.15
빅분기 스터디 1st  (0) 2025.03.09
주말 빅분기 공부 계획  (1) 2025.03.09