ADsP 예상문제 내용

데이터 분석가:Applied Data Analytics/ADsP

ADsP 예상문제 내용

데이터분석 2025. 2. 14. 17:09

320x100

1. 데이터 분석 개념 및 기초 통계

1. 데이터 분석의 3단계(정의, 수집, 분석)?

정의: 문제를 명확히 설정
수집: 데이터 확보 및 정리
분석: 데이터 탐색 및 모델 적용

2. 정형 데이터 vs 비정형 데이터?

정형 데이터: 엑셀, 데이터베이스(SQL)처럼 구조화된 데이터
비정형 데이터: 이미지, 동영상, 텍스트 등 구조화되지 않은 데이터

3. 모수적 분석 vs 비모수적 분석?

모수적 분석: 데이터가 정규분포를 따르는 경우 사용 (t-test, ANOVA)
비모수적 분석: 데이터 분포 가정 없이 사용 (카이제곱 검정, 순위 검정)

4. 평균, 중앙값, 최빈값 차이?

평균(mean): 모든 값을 더한 후 개수로 나눈 값
중앙값(median): 데이터를 정렬했을 때 중간 값
최빈값(mode): 가장 많이 등장한 값

5. 데이터 퍼짐 정도 지표 3가지?

범위(Range): 최댓값 - 최솟값
분산(Variance): 값들이 평균에서 얼마나 떨어져 있는지
표준편차(Standard Deviation): 분산의 제곱근

6. 표준편차 vs 분산?

표준편차: 데이터의 평균에서의 평균적 거리를 나타냄
분산: 표준편차의 제곱 (값들이 퍼져 있는 정도)

7. 상관관계 vs 인과관계?

상관관계: 두 변수 간의 관계는 있지만 원인-결과가 아님
인과관계: 한 변수가 다른 변수에 영향을 미치는 관계

8. 결정계수(R²) 의미?

모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표 (1에 가까울수록 좋음)

9. p-value 의미?

귀무가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률
p < 0.05 → 귀무가설 기각 (유의미한 차이 있음)

10. 정규분포 특징과 중심극한정리(CLT)?

정규분포: 대칭적이고 종 모양을 띄는 분포
중심극한정리: 표본 크기가 충분히 크면 모집단이 어떤 분포든 정규분포를 따름

2. 데이터 전처리 및 가설 검정

11. 이상치 탐지 방법 3가지?

IQR(사분위 범위) 기준
Z-score(표준화 점수) 기준
시각화(Boxplot, Scatterplot)

12. 결측치 처리 방법 3가지?

삭제: 결측치가 적으면 제거
대체: 평균, 중앙값으로 채우기
예측: 머신러닝 모델로 예측하여 채우기

13. 정규화 vs 표준화?

정규화(Normalization): 데이터 값을 0~1 범위로 변환
표준화(Standardization): 평균 0, 표준편차 1로 변환

14. 가설 검정 개념과 절차?

귀무가설(H₀)과 대립가설(H₁) 설정
검정통계량 계산
p-value 확인
의미 있는 차이가 있으면 귀무가설 기각

15. 1종 오류 vs 2종 오류?

1종 오류: 실제로 참인 귀무가설을 기각함 (False Positive)
2종 오류: 실제로 거짓인 귀무가설을 기각하지 않음 (False Negative)

16. 신뢰구간(Confidence Interval) 의미?

모집단의 평균이 특정 범위 내에 있을 확률

17. 모집단 vs 표본?

모집단: 전체 데이터
표본: 모집단에서 선택한 일부 데이터

18. 피어슨 vs 스피어만 상관계수?

피어슨: 선형 관계 측정 (정규분포 데이터에 적합)
스피어만: 순위 기반 관계 측정 (비선형 데이터 가능)

19. ANOVA(분산 분석) 목적?

세 개 이상의 그룹 평균 차이를 비교하는 통계 기법

20. 카이제곱 검정 목적?

범주형 데이터 간 독립성 분석 (예: 광고 유형과 구매율 관계 분석)

3. 회귀 분석 및 머신러닝

21. 단순 회귀 vs 다중 회귀?

단순 회귀: 독립변수 1개
다중 회귀: 독립변수 2개 이상

22. 로지스틱 회귀 특징?

이진 분류(0 or 1) 문제 해결에 사용

23. Lasso vs Ridge 회귀?

Lasso: 불필요한 변수 제거 (계수를 0으로 만듦)
Ridge: 모든 변수 사용 (계수를 작게 만듦)

24. 과적합 vs 과소적합?

과적합: 훈련 데이터에만 너무 잘 맞음
과소적합: 모델이 너무 단순하여 데이터 패턴을 잘 잡지 못함

25. 훈련/테스트 데이터 분리 이유?

일반화 성능 평가를 위해

26. K-Means 군집화 원리?

K개의 중심점을 설정하고 반복적으로 군집을 형성하는 방식

27. 혼동행렬에서 Accuracy, Precision, Recall 차이?

Accuracy(정확도): 전체 데이터 중 맞춘 비율
Precision(정밀도): 모델이 긍정으로 예측한 것 중 실제 긍정 비율
Recall(재현율): 실제 긍정 샘플 중 모델이 긍정으로 예측한 비율

28. F1-score 의미?

Precision과 Recall의 조화 평균 (2 * Precision * Recall / (Precision + Recall))

29. ROC 곡선 & AUC 의미?

ROC: 모델 성능을 시각적으로 평가하는 곡선
AUC: ROC 곡선 아래 면적 (1에 가까울수록 좋음)

30. 랜덤 포레스트 특징?

여러 개의 결정 트리를 조합하여 예측 정확도를 높이는 알고리즘

4. 시계열 분석 및 데이터 마이닝

1. 시계열 분석(Time Series Analysis)의 목적?

시간에 따른 데이터의 패턴을 분석하여 미래를 예측

2. ARIMA 모델의 구성 요소(AR, I, MA) 의미?

AR(AutoRegressive, 자기회귀): 과거 값을 이용하여 예측
I(Integrated, 차분): 데이터의 변동성을 제거하여 정상성을 맞춤
MA(Moving Average, 이동 평균): 과거 오차를 이용하여 예측

3. 결측치를 보완하는 대표적인 방법?

삭제: 결측치가 적을 때 제거
대체: 평균, 중앙값 등으로 채우기
예측: 머신러닝을 활용하여 보완

4. 데이터 마이닝(Data Mining)의 주요 기법 3가지?

군집 분석(Clustering): 유사한 그룹으로 데이터 분류
분류(Classification): 주어진 데이터를 카테고리로 분류
연관 규칙 분석(Association Rule Mining): 데이터 간 관계 찾기 (예: 장바구니 분석)

5. 주성분 분석(PCA)의 목적?

고차원 데이터를 저차원으로 축소하여 중요한 정보만 유지

6. 텍스트 마이닝에서 가장 많이 사용하는 기법?

TF-IDF (단어 가중치 계산), 감성 분석(Sentiment Analysis), 토픽 모델링(Topic Modeling)

7. 연관 규칙 분석(Association Rule Mining)의 주요 개념 3가지?

지지도(Support): 전체 데이터에서 특정 항목이 등장하는 비율
신뢰도(Confidence): A가 나왔을 때 B도 나올 확률
향상도(Lift): A와 B가 동시에 나타날 가능성이 무작위보다 얼마나 높은지

8. Apriori 알고리즘의 목적과 특징?

연관 규칙 분석을 수행하는 대표적인 알고리즘
자주 함께 발생하는 항목을 찾아 연관성을 분석

9. TF-IDF(Term Frequency-Inverse Document Frequency)의 의미?

단어의 중요도를 평가하는 지표 (자주 등장하지만 모든 문서에서 흔하면 중요도가 낮음)

10. 소셜 네트워크 분석(SNA)의 핵심 개념?

노드(Node): 개별 요소 (예: 사람, 웹페이지)
엣지(Edge): 노드 간 관계 (예: 친구, 링크)
중심성(Centrality): 네트워크에서 중요한 노드 찾기

5. 데이터 시각화 및 활용

1. 파이차트(Pie Chart) vs 바차트(Bar Chart) 차이?

파이차트: 전체 중에서 비율을 보여줌
바차트: 항목별 비교에 적합

2. 히스토그램(Histogram) vs 박스플롯(Boxplot) 차이?

히스토그램: 데이터의 분포를 막대그래프로 표현
박스플롯: 데이터의 사분위수, 이상치 등을 표현

3. 시본(Seaborn) vs 매트플롯립(Matplotlib) 차이?

Seaborn: 통계적 시각화에 강점
Matplotlib: 기본적인 그래프 구현 가능

4. 빅데이터의 3V(Volume, Velocity, Variety) 의미?

Volume(규모): 데이터의 양이 방대함
Velocity(속도): 데이터가 빠르게 생성됨
Variety(다양성): 정형/비정형 데이터가 혼합됨

5. 하둡(Hadoop)의 주요 구성 요소 3가지?

HDFS: 분산 파일 시스템
MapReduce: 병렬 데이터 처리
YARN: 리소스 관리

6. 스파크(Spark)의 특징 vs 하둡(Hadoop) 차이?

스파크: 빠르고 실시간 데이터 처리 가능
하둡: 배치 처리 중심, 속도가 상대적으로 느림

7. 데이터 거버넌스(Data Governance) 개념?

데이터의 품질, 보안, 정책을 관리하는 체계

8. 데이터 윤리(Data Ethics)와 개인정보 보호법에서 유의사항?

개인정보 보호, 데이터의 투명성 및 공정한 활용 필수

9. NoSQL vs 관계형 데이터베이스(RDB) 차이?

NoSQL: 비정형 데이터 처리 가능, 확장성 우수 (예: MongoDB)
RDB: 테이블 기반, 정형 데이터 처리에 강점 (예: MySQL)

10. ELT vs ETL 차이?

ELT: 데이터를 먼저 저장(Load) 후 변환(Transform)
ETL: 데이터를 변환(Transform) 후 저장(Load)

'데이터 분석가:Applied Data Analytics > ADsP' 카테고리의 다른 글

회귀분석에서 연속형 종속변수를 예측하는 방법 (0)	2025.02.22
회귀분석은 종속변수가 연속형일때 사용 (0)	2025.02.22
확률과 통계 (0)	2025.02.20
ADsP 내용 용어정리-(Accuracy와 Precision) (0)	2025.02.19
ADsP의 예상 기출문제 (0)	2025.02.14

현재글ADsP 예상문제 내용

데이터분석가 기술블로그

일정분석 전문가의 데이터분석가 기술블로그입니다.

데이터분석, 일정관리, Ai, SQL, mainquest06, 태블로, 운동, mq06, 데이터분석가, 데이터 시각화, 빅분기, Tableau, 파이썬, ADsP, 공정관리, 머신러닝, 건강, 베트남, 시각화, 데이터시각화,

Today :
Yesterday :

티스토리툴바