데이터 분석가:Applied Data Analytics/ADsP

ADsP 예상문제 내용

데이터분석 2025. 2. 14. 17:09
320x100
728x90

1. 데이터 분석 개념 및 기초 통계

1. 데이터 분석의 3단계(정의, 수집, 분석)?

  • 정의: 문제를 명확히 설정
  • 수집: 데이터 확보 및 정리
  • 분석: 데이터 탐색 및 모델 적용

2. 정형 데이터 vs 비정형 데이터?

  • 정형 데이터: 엑셀, 데이터베이스(SQL)처럼 구조화된 데이터
  • 비정형 데이터: 이미지, 동영상, 텍스트 등 구조화되지 않은 데이터

3. 모수적 분석 vs 비모수적 분석?

  • 모수적 분석: 데이터가 정규분포를 따르는 경우 사용 (t-test, ANOVA)
  • 비모수적 분석: 데이터 분포 가정 없이 사용 (카이제곱 검정, 순위 검정)

4. 평균, 중앙값, 최빈값 차이?

  • 평균(mean): 모든 값을 더한 후 개수로 나눈 값
  • 중앙값(median): 데이터를 정렬했을 때 중간 값
  • 최빈값(mode): 가장 많이 등장한 값

5. 데이터 퍼짐 정도 지표 3가지?

  • 범위(Range): 최댓값 - 최솟값
  • 분산(Variance): 값들이 평균에서 얼마나 떨어져 있는지
  • 표준편차(Standard Deviation): 분산의 제곱근

6. 표준편차 vs 분산?

  • 표준편차: 데이터의 평균에서의 평균적 거리를 나타냄
  • 분산: 표준편차의 제곱 (값들이 퍼져 있는 정도)

7. 상관관계 vs 인과관계?

  • 상관관계: 두 변수 간의 관계는 있지만 원인-결과가 아님
  • 인과관계: 한 변수가 다른 변수에 영향을 미치는 관계

8. 결정계수(R²) 의미?

  • 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표 (1에 가까울수록 좋음)

9. p-value 의미?

  • 귀무가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률
  • p < 0.05 → 귀무가설 기각 (유의미한 차이 있음)

10. 정규분포 특징과 중심극한정리(CLT)?

  • 정규분포: 대칭적이고 종 모양을 띄는 분포
  • 중심극한정리: 표본 크기가 충분히 크면 모집단이 어떤 분포든 정규분포를 따름

2. 데이터 전처리 및 가설 검정

11. 이상치 탐지 방법 3가지?

  • IQR(사분위 범위) 기준
  • Z-score(표준화 점수) 기준
  • 시각화(Boxplot, Scatterplot)

12. 결측치 처리 방법 3가지?

  • 삭제: 결측치가 적으면 제거
  • 대체: 평균, 중앙값으로 채우기
  • 예측: 머신러닝 모델로 예측하여 채우기

13. 정규화 vs 표준화?

  • 정규화(Normalization): 데이터 값을 0~1 범위로 변환
  • 표준화(Standardization): 평균 0, 표준편차 1로 변환

14. 가설 검정 개념과 절차?

  1. 귀무가설(H₀)과 대립가설(H₁) 설정
  2. 검정통계량 계산
  3. p-value 확인
  4. 의미 있는 차이가 있으면 귀무가설 기각

15. 1종 오류 vs 2종 오류?

  • 1종 오류: 실제로 참인 귀무가설을 기각함 (False Positive)
  • 2종 오류: 실제로 거짓인 귀무가설을 기각하지 않음 (False Negative)

16. 신뢰구간(Confidence Interval) 의미?

  • 모집단의 평균이 특정 범위 내에 있을 확률

17. 모집단 vs 표본?

  • 모집단: 전체 데이터
  • 표본: 모집단에서 선택한 일부 데이터

18. 피어슨 vs 스피어만 상관계수?

  • 피어슨: 선형 관계 측정 (정규분포 데이터에 적합)
  • 스피어만: 순위 기반 관계 측정 (비선형 데이터 가능)

19. ANOVA(분산 분석) 목적?

  • 세 개 이상의 그룹 평균 차이를 비교하는 통계 기법

20. 카이제곱 검정 목적?

  • 범주형 데이터 간 독립성 분석 (예: 광고 유형과 구매율 관계 분석)

3. 회귀 분석 및 머신러닝

21. 단순 회귀 vs 다중 회귀?

  • 단순 회귀: 독립변수 1개
  • 다중 회귀: 독립변수 2개 이상

22. 로지스틱 회귀 특징?

  • 이진 분류(0 or 1) 문제 해결에 사용

23. Lasso vs Ridge 회귀?

  • Lasso: 불필요한 변수 제거 (계수를 0으로 만듦)
  • Ridge: 모든 변수 사용 (계수를 작게 만듦)

24. 과적합 vs 과소적합?

  • 과적합: 훈련 데이터에만 너무 잘 맞음
  • 과소적합: 모델이 너무 단순하여 데이터 패턴을 잘 잡지 못함

25. 훈련/테스트 데이터 분리 이유?

  • 일반화 성능 평가를 위해

26. K-Means 군집화 원리?

  • K개의 중심점을 설정하고 반복적으로 군집을 형성하는 방식

27. 혼동행렬에서 Accuracy, Precision, Recall 차이?

  • Accuracy(정확도): 전체 데이터 중 맞춘 비율
  • Precision(정밀도): 모델이 긍정으로 예측한 것 중 실제 긍정 비율
  • Recall(재현율): 실제 긍정 샘플 중 모델이 긍정으로 예측한 비율

28. F1-score 의미?

  • Precision과 Recall의 조화 평균 (2 * Precision * Recall / (Precision + Recall))

29. ROC 곡선 & AUC 의미?

  • ROC: 모델 성능을 시각적으로 평가하는 곡선
  • AUC: ROC 곡선 아래 면적 (1에 가까울수록 좋음)

30. 랜덤 포레스트 특징?

  • 여러 개의 결정 트리를 조합하여 예측 정확도를 높이는 알고리즘

4. 시계열 분석 및 데이터 마이닝

1. 시계열 분석(Time Series Analysis)의 목적?

  • 시간에 따른 데이터의 패턴을 분석하여 미래를 예측

2. ARIMA 모델의 구성 요소(AR, I, MA) 의미?

  • AR(AutoRegressive, 자기회귀): 과거 값을 이용하여 예측
  • I(Integrated, 차분): 데이터의 변동성을 제거하여 정상성을 맞춤
  • MA(Moving Average, 이동 평균): 과거 오차를 이용하여 예측

3. 결측치를 보완하는 대표적인 방법?

  • 삭제: 결측치가 적을 때 제거
  • 대체: 평균, 중앙값 등으로 채우기
  • 예측: 머신러닝을 활용하여 보완

4. 데이터 마이닝(Data Mining)의 주요 기법 3가지?

  • 군집 분석(Clustering): 유사한 그룹으로 데이터 분류
  • 분류(Classification): 주어진 데이터를 카테고리로 분류
  • 연관 규칙 분석(Association Rule Mining): 데이터 간 관계 찾기 (예: 장바구니 분석)

5. 주성분 분석(PCA)의 목적?

  • 고차원 데이터를 저차원으로 축소하여 중요한 정보만 유지

6. 텍스트 마이닝에서 가장 많이 사용하는 기법?

  • TF-IDF (단어 가중치 계산), 감성 분석(Sentiment Analysis), 토픽 모델링(Topic Modeling)

7. 연관 규칙 분석(Association Rule Mining)의 주요 개념 3가지?

  • 지지도(Support): 전체 데이터에서 특정 항목이 등장하는 비율
  • 신뢰도(Confidence): A가 나왔을 때 B도 나올 확률
  • 향상도(Lift): A와 B가 동시에 나타날 가능성이 무작위보다 얼마나 높은지

8. Apriori 알고리즘의 목적과 특징?

  • 연관 규칙 분석을 수행하는 대표적인 알고리즘
  • 자주 함께 발생하는 항목을 찾아 연관성을 분석

9. TF-IDF(Term Frequency-Inverse Document Frequency)의 의미?

  • 단어의 중요도를 평가하는 지표 (자주 등장하지만 모든 문서에서 흔하면 중요도가 낮음)

10. 소셜 네트워크 분석(SNA)의 핵심 개념?

  • 노드(Node): 개별 요소 (예: 사람, 웹페이지)
  • 엣지(Edge): 노드 간 관계 (예: 친구, 링크)
  • 중심성(Centrality): 네트워크에서 중요한 노드 찾기

5. 데이터 시각화 및 활용

1. 파이차트(Pie Chart) vs 바차트(Bar Chart) 차이?

  • 파이차트: 전체 중에서 비율을 보여줌
  • 바차트: 항목별 비교에 적합

2. 히스토그램(Histogram) vs 박스플롯(Boxplot) 차이?

  • 히스토그램: 데이터의 분포를 막대그래프로 표현
  • 박스플롯: 데이터의 사분위수, 이상치 등을 표현

3. 시본(Seaborn) vs 매트플롯립(Matplotlib) 차이?

  • Seaborn: 통계적 시각화에 강점
  • Matplotlib: 기본적인 그래프 구현 가능

4. 빅데이터의 3V(Volume, Velocity, Variety) 의미?

  • Volume(규모): 데이터의 양이 방대함
  • Velocity(속도): 데이터가 빠르게 생성됨
  • Variety(다양성): 정형/비정형 데이터가 혼합됨

5. 하둡(Hadoop)의 주요 구성 요소 3가지?

  • HDFS: 분산 파일 시스템
  • MapReduce: 병렬 데이터 처리
  • YARN: 리소스 관리

6. 스파크(Spark)의 특징 vs 하둡(Hadoop) 차이?

  • 스파크: 빠르고 실시간 데이터 처리 가능
  • 하둡: 배치 처리 중심, 속도가 상대적으로 느림

7. 데이터 거버넌스(Data Governance) 개념?

  • 데이터의 품질, 보안, 정책을 관리하는 체계

8. 데이터 윤리(Data Ethics)와 개인정보 보호법에서 유의사항?

  • 개인정보 보호, 데이터의 투명성 및 공정한 활용 필수

9. NoSQL vs 관계형 데이터베이스(RDB) 차이?

  • NoSQL: 비정형 데이터 처리 가능, 확장성 우수 (예: MongoDB)
  • RDB: 테이블 기반, 정형 데이터 처리에 강점 (예: MySQL)

10. ELT vs ETL 차이?

  • ELT: 데이터를 먼저 저장(Load) 후 변환(Transform)
  • ETL: 데이터를 변환(Transform) 후 저장(Load)