300x250

2025/03/10 5

kaggle Instacart Market Basket Analysis 프로젝트

3일 일정 및 역할 분배4명이서 진행하는 경우, EDA는 각자 개별적으로 진행한 후, 3일 동안 가설 설정, 예측 모델링, 분석, 보고서 작성 및 발표 준비를 진행하는 최적의 역할 분배안을 정리1. 역할 분배 (4인 기준)역할담당자주요 업무A: 데이터 리더팀원 1데이터 전처리, 피처 엔지니어링B: 모델링 담당팀원 2머신러닝 모델 구축 및 성능 평가C: 인사이트 분석 담당팀원 3예측 결과 분석 및 비즈니스 인사이트 도출D: 보고서 및 발표 담당팀원 4최종 보고서 및 발표 자료 제작 2. 3일 일정 (하루 7시간 기준)Day 1: 가설 설정 및 데이터 전처리(공통) 개별 EDA 결과 공유 (1시간)(A: 데이터 리더) 데이터 전처리 및 피처 엔지니어링 (4시간)(B: 모델링 담당) 예측 모델 기초 설계 및 ..

violinplot

Violin Plot(바이올린 플롯) 설명1. Violin Plot 개념Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.2. Violin Plot의 특징밀도 곡선(KDE, Kernel Density Estimation)데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다...

선형대수학(Linear Algebra) 개요

선형대수학은 벡터, 행렬, 선형 변환 등을 연구하는 수학 분야로, 데이터 분석, 기계 학습, 컴퓨터 그래픽스 등 다양한 분야에서 활용된다.1. 기본 개념스칼라(Scalar)하나의 수 (예: 3, -1, 0.5)선형대수에서 크기만 있는 값벡터(Vector)크기와 방향을 가지는 값의 집합n차원 공간에서 한 점을 나타낼 수 있음행렬(Matrix)숫자가 사각형 형태로 배열된 것예: A=[1234]A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}A=[13​24​]벡터의 집합을 표현하거나 변환 연산을 수행하는 데 사용텐서(Tensor)행렬보다 더 고차원의 다차원 배열기계학습에서는 다차원 데이터를 표현하는 데 사용2. 벡터 연산벡터 덧셈과 뺄셈같은 차원의 벡터끼리 더하거나 뺄 수..

데이터 분석 단계

1. 질문하기(Ask)문제 정의 및 목표 설정이해관계자의 요구사항 분석데이터 분석이 해결해야 할 핵심 질문을 식별핵심 질문비즈니스 문제는 무엇인가?데이터 분석을 통해 어떤 의사결정을 도울 것인가?주요 이해관계자는 누구이며, 그들의 요구사항은 무엇인가?2. 데이터 수집하기(Prepare)분석에 필요한 데이터 확인 및 수집데이터 원천(데이터베이스, API, 스프레드시트 등) 선택데이터 품질 평가(결측치, 이상치, 불완전한 데이터 확인)핵심 질문필요한 데이터는 어디에서 가져올 수 있는가?데이터가 신뢰할 수 있는가?데이터 정리가 필요한가?3. 데이터 처리하기(Process)데이터 정제(결측치 처리, 중복 제거, 형식 변환 등)데이터 변환 및 정규화데이터 품질 검사 및 오류 수정핵심 질문데이터에서 오류나 불일치가..

모듈 1 챌린지 오답노트

데이터 전문가는 항상 새로운 기술을 배우고 지식을 습득하는 데 관심이 많습니다. 그들은 종종 직장에서 도전적인 과제와 전문성 개발 경험을 찾습니다. 이 시나리오는 어떤 분석 스킬을 설명할까요?호기심 데이터 설계기술적 사고방식맥락 이해이문제의 주요 핵심내용새로운 기술 학습데이터 전문가는 지속적으로 새로운 도구 및 기술(Stack)을 습득해야 함예: Python, SQL, R, BigQuery, Looker, 머신러닝 모델링 등도전적인 과제 해결 능력데이터 분석을 통한 문제 해결 및 최적화복잡한 데이터 셋을 다루며 인사이트 도출전문성 개발 및 성장데이터 분석 및 시각화 역량 강화비즈니스와 연계된 데이터 기반 의사결정 지원관련된 분석 스킬데이터 탐색 및 전처리 (EDA, Data Wrangling)통계 및 확..

SMALL