320x100
728x90
1. 데이터 분석 개념 및 기초 통계
1. 데이터 분석의 3단계(정의, 수집, 분석)?
- 정의: 문제를 명확히 설정
- 수집: 데이터 확보 및 정리
- 분석: 데이터 탐색 및 모델 적용
2. 정형 데이터 vs 비정형 데이터?
- 정형 데이터: 엑셀, 데이터베이스(SQL)처럼 구조화된 데이터
- 비정형 데이터: 이미지, 동영상, 텍스트 등 구조화되지 않은 데이터
3. 모수적 분석 vs 비모수적 분석?
- 모수적 분석: 데이터가 정규분포를 따르는 경우 사용 (t-test, ANOVA)
- 비모수적 분석: 데이터 분포 가정 없이 사용 (카이제곱 검정, 순위 검정)
4. 평균, 중앙값, 최빈값 차이?
- 평균(mean): 모든 값을 더한 후 개수로 나눈 값
- 중앙값(median): 데이터를 정렬했을 때 중간 값
- 최빈값(mode): 가장 많이 등장한 값
5. 데이터 퍼짐 정도 지표 3가지?
- 범위(Range): 최댓값 - 최솟값
- 분산(Variance): 값들이 평균에서 얼마나 떨어져 있는지
- 표준편차(Standard Deviation): 분산의 제곱근
6. 표준편차 vs 분산?
- 표준편차: 데이터의 평균에서의 평균적 거리를 나타냄
- 분산: 표준편차의 제곱 (값들이 퍼져 있는 정도)
7. 상관관계 vs 인과관계?
- 상관관계: 두 변수 간의 관계는 있지만 원인-결과가 아님
- 인과관계: 한 변수가 다른 변수에 영향을 미치는 관계
8. 결정계수(R²) 의미?
- 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표 (1에 가까울수록 좋음)
9. p-value 의미?
- 귀무가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률
- p < 0.05 → 귀무가설 기각 (유의미한 차이 있음)
10. 정규분포 특징과 중심극한정리(CLT)?
- 정규분포: 대칭적이고 종 모양을 띄는 분포
- 중심극한정리: 표본 크기가 충분히 크면 모집단이 어떤 분포든 정규분포를 따름
2. 데이터 전처리 및 가설 검정
11. 이상치 탐지 방법 3가지?
- IQR(사분위 범위) 기준
- Z-score(표준화 점수) 기준
- 시각화(Boxplot, Scatterplot)
12. 결측치 처리 방법 3가지?
- 삭제: 결측치가 적으면 제거
- 대체: 평균, 중앙값으로 채우기
- 예측: 머신러닝 모델로 예측하여 채우기
13. 정규화 vs 표준화?
- 정규화(Normalization): 데이터 값을 0~1 범위로 변환
- 표준화(Standardization): 평균 0, 표준편차 1로 변환
14. 가설 검정 개념과 절차?
- 귀무가설(H₀)과 대립가설(H₁) 설정
- 검정통계량 계산
- p-value 확인
- 의미 있는 차이가 있으면 귀무가설 기각
15. 1종 오류 vs 2종 오류?
- 1종 오류: 실제로 참인 귀무가설을 기각함 (False Positive)
- 2종 오류: 실제로 거짓인 귀무가설을 기각하지 않음 (False Negative)
16. 신뢰구간(Confidence Interval) 의미?
- 모집단의 평균이 특정 범위 내에 있을 확률
17. 모집단 vs 표본?
- 모집단: 전체 데이터
- 표본: 모집단에서 선택한 일부 데이터
18. 피어슨 vs 스피어만 상관계수?
- 피어슨: 선형 관계 측정 (정규분포 데이터에 적합)
- 스피어만: 순위 기반 관계 측정 (비선형 데이터 가능)
19. ANOVA(분산 분석) 목적?
- 세 개 이상의 그룹 평균 차이를 비교하는 통계 기법
20. 카이제곱 검정 목적?
- 범주형 데이터 간 독립성 분석 (예: 광고 유형과 구매율 관계 분석)
3. 회귀 분석 및 머신러닝
21. 단순 회귀 vs 다중 회귀?
- 단순 회귀: 독립변수 1개
- 다중 회귀: 독립변수 2개 이상
22. 로지스틱 회귀 특징?
- 이진 분류(0 or 1) 문제 해결에 사용
23. Lasso vs Ridge 회귀?
- Lasso: 불필요한 변수 제거 (계수를 0으로 만듦)
- Ridge: 모든 변수 사용 (계수를 작게 만듦)
24. 과적합 vs 과소적합?
- 과적합: 훈련 데이터에만 너무 잘 맞음
- 과소적합: 모델이 너무 단순하여 데이터 패턴을 잘 잡지 못함
25. 훈련/테스트 데이터 분리 이유?
- 일반화 성능 평가를 위해
26. K-Means 군집화 원리?
- K개의 중심점을 설정하고 반복적으로 군집을 형성하는 방식
27. 혼동행렬에서 Accuracy, Precision, Recall 차이?
- Accuracy(정확도): 전체 데이터 중 맞춘 비율
- Precision(정밀도): 모델이 긍정으로 예측한 것 중 실제 긍정 비율
- Recall(재현율): 실제 긍정 샘플 중 모델이 긍정으로 예측한 비율
28. F1-score 의미?
- Precision과 Recall의 조화 평균 (2 * Precision * Recall / (Precision + Recall))
29. ROC 곡선 & AUC 의미?
- ROC: 모델 성능을 시각적으로 평가하는 곡선
- AUC: ROC 곡선 아래 면적 (1에 가까울수록 좋음)
30. 랜덤 포레스트 특징?
- 여러 개의 결정 트리를 조합하여 예측 정확도를 높이는 알고리즘
4. 시계열 분석 및 데이터 마이닝
1. 시계열 분석(Time Series Analysis)의 목적?
- 시간에 따른 데이터의 패턴을 분석하여 미래를 예측
2. ARIMA 모델의 구성 요소(AR, I, MA) 의미?
- AR(AutoRegressive, 자기회귀): 과거 값을 이용하여 예측
- I(Integrated, 차분): 데이터의 변동성을 제거하여 정상성을 맞춤
- MA(Moving Average, 이동 평균): 과거 오차를 이용하여 예측
3. 결측치를 보완하는 대표적인 방법?
- 삭제: 결측치가 적을 때 제거
- 대체: 평균, 중앙값 등으로 채우기
- 예측: 머신러닝을 활용하여 보완
4. 데이터 마이닝(Data Mining)의 주요 기법 3가지?
- 군집 분석(Clustering): 유사한 그룹으로 데이터 분류
- 분류(Classification): 주어진 데이터를 카테고리로 분류
- 연관 규칙 분석(Association Rule Mining): 데이터 간 관계 찾기 (예: 장바구니 분석)
5. 주성분 분석(PCA)의 목적?
- 고차원 데이터를 저차원으로 축소하여 중요한 정보만 유지
6. 텍스트 마이닝에서 가장 많이 사용하는 기법?
- TF-IDF (단어 가중치 계산), 감성 분석(Sentiment Analysis), 토픽 모델링(Topic Modeling)
7. 연관 규칙 분석(Association Rule Mining)의 주요 개념 3가지?
- 지지도(Support): 전체 데이터에서 특정 항목이 등장하는 비율
- 신뢰도(Confidence): A가 나왔을 때 B도 나올 확률
- 향상도(Lift): A와 B가 동시에 나타날 가능성이 무작위보다 얼마나 높은지
8. Apriori 알고리즘의 목적과 특징?
- 연관 규칙 분석을 수행하는 대표적인 알고리즘
- 자주 함께 발생하는 항목을 찾아 연관성을 분석
9. TF-IDF(Term Frequency-Inverse Document Frequency)의 의미?
- 단어의 중요도를 평가하는 지표 (자주 등장하지만 모든 문서에서 흔하면 중요도가 낮음)
10. 소셜 네트워크 분석(SNA)의 핵심 개념?
- 노드(Node): 개별 요소 (예: 사람, 웹페이지)
- 엣지(Edge): 노드 간 관계 (예: 친구, 링크)
- 중심성(Centrality): 네트워크에서 중요한 노드 찾기
5. 데이터 시각화 및 활용
1. 파이차트(Pie Chart) vs 바차트(Bar Chart) 차이?
- 파이차트: 전체 중에서 비율을 보여줌
- 바차트: 항목별 비교에 적합
2. 히스토그램(Histogram) vs 박스플롯(Boxplot) 차이?
- 히스토그램: 데이터의 분포를 막대그래프로 표현
- 박스플롯: 데이터의 사분위수, 이상치 등을 표현
3. 시본(Seaborn) vs 매트플롯립(Matplotlib) 차이?
- Seaborn: 통계적 시각화에 강점
- Matplotlib: 기본적인 그래프 구현 가능
4. 빅데이터의 3V(Volume, Velocity, Variety) 의미?
- Volume(규모): 데이터의 양이 방대함
- Velocity(속도): 데이터가 빠르게 생성됨
- Variety(다양성): 정형/비정형 데이터가 혼합됨
5. 하둡(Hadoop)의 주요 구성 요소 3가지?
- HDFS: 분산 파일 시스템
- MapReduce: 병렬 데이터 처리
- YARN: 리소스 관리
6. 스파크(Spark)의 특징 vs 하둡(Hadoop) 차이?
- 스파크: 빠르고 실시간 데이터 처리 가능
- 하둡: 배치 처리 중심, 속도가 상대적으로 느림
7. 데이터 거버넌스(Data Governance) 개념?
- 데이터의 품질, 보안, 정책을 관리하는 체계
8. 데이터 윤리(Data Ethics)와 개인정보 보호법에서 유의사항?
- 개인정보 보호, 데이터의 투명성 및 공정한 활용 필수
9. NoSQL vs 관계형 데이터베이스(RDB) 차이?
- NoSQL: 비정형 데이터 처리 가능, 확장성 우수 (예: MongoDB)
- RDB: 테이블 기반, 정형 데이터 처리에 강점 (예: MySQL)
10. ELT vs ETL 차이?
- ELT: 데이터를 먼저 저장(Load) 후 변환(Transform)
- ETL: 데이터를 변환(Transform) 후 저장(Load)
'데이터 분석가:Applied Data Analytics > ADsP' 카테고리의 다른 글
회귀분석에서 연속형 종속변수를 예측하는 방법 (0) | 2025.02.22 |
---|---|
회귀분석은 종속변수가 연속형일때 사용 (0) | 2025.02.22 |
확률과 통계 (0) | 2025.02.20 |
ADsP 내용 용어정리-(Accuracy와 Precision) (0) | 2025.02.19 |
ADsP의 예상 기출문제 (0) | 2025.02.14 |