300x250

2025/03 73

kaggle Instacart Market Basket Analysis 프로젝트

3일 일정 및 역할 분배4명이서 진행하는 경우, EDA는 각자 개별적으로 진행한 후, 3일 동안 가설 설정, 예측 모델링, 분석, 보고서 작성 및 발표 준비를 진행하는 최적의 역할 분배안을 정리1. 역할 분배 (4인 기준)역할담당자주요 업무A: 데이터 리더팀원 1데이터 전처리, 피처 엔지니어링B: 모델링 담당팀원 2머신러닝 모델 구축 및 성능 평가C: 인사이트 분석 담당팀원 3예측 결과 분석 및 비즈니스 인사이트 도출D: 보고서 및 발표 담당팀원 4최종 보고서 및 발표 자료 제작 2. 3일 일정 (하루 7시간 기준)Day 1: 가설 설정 및 데이터 전처리(공통) 개별 EDA 결과 공유 (1시간)(A: 데이터 리더) 데이터 전처리 및 피처 엔지니어링 (4시간)(B: 모델링 담당) 예측 모델 기초 설계 및 ..

violinplot

Violin Plot(바이올린 플롯) 설명1. Violin Plot 개념Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.2. Violin Plot의 특징밀도 곡선(KDE, Kernel Density Estimation)데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다...

선형대수학(Linear Algebra) 개요

선형대수학은 벡터, 행렬, 선형 변환 등을 연구하는 수학 분야로, 데이터 분석, 기계 학습, 컴퓨터 그래픽스 등 다양한 분야에서 활용된다.1. 기본 개념스칼라(Scalar)하나의 수 (예: 3, -1, 0.5)선형대수에서 크기만 있는 값벡터(Vector)크기와 방향을 가지는 값의 집합n차원 공간에서 한 점을 나타낼 수 있음행렬(Matrix)숫자가 사각형 형태로 배열된 것예: A=[1234]A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}A=[13​24​]벡터의 집합을 표현하거나 변환 연산을 수행하는 데 사용텐서(Tensor)행렬보다 더 고차원의 다차원 배열기계학습에서는 다차원 데이터를 표현하는 데 사용2. 벡터 연산벡터 덧셈과 뺄셈같은 차원의 벡터끼리 더하거나 뺄 수..

데이터 분석 단계

1. 질문하기(Ask)문제 정의 및 목표 설정이해관계자의 요구사항 분석데이터 분석이 해결해야 할 핵심 질문을 식별핵심 질문비즈니스 문제는 무엇인가?데이터 분석을 통해 어떤 의사결정을 도울 것인가?주요 이해관계자는 누구이며, 그들의 요구사항은 무엇인가?2. 데이터 수집하기(Prepare)분석에 필요한 데이터 확인 및 수집데이터 원천(데이터베이스, API, 스프레드시트 등) 선택데이터 품질 평가(결측치, 이상치, 불완전한 데이터 확인)핵심 질문필요한 데이터는 어디에서 가져올 수 있는가?데이터가 신뢰할 수 있는가?데이터 정리가 필요한가?3. 데이터 처리하기(Process)데이터 정제(결측치 처리, 중복 제거, 형식 변환 등)데이터 변환 및 정규화데이터 품질 검사 및 오류 수정핵심 질문데이터에서 오류나 불일치가..

모듈 1 챌린지 오답노트

데이터 전문가는 항상 새로운 기술을 배우고 지식을 습득하는 데 관심이 많습니다. 그들은 종종 직장에서 도전적인 과제와 전문성 개발 경험을 찾습니다. 이 시나리오는 어떤 분석 스킬을 설명할까요?호기심 데이터 설계기술적 사고방식맥락 이해이문제의 주요 핵심내용새로운 기술 학습데이터 전문가는 지속적으로 새로운 도구 및 기술(Stack)을 습득해야 함예: Python, SQL, R, BigQuery, Looker, 머신러닝 모델링 등도전적인 과제 해결 능력데이터 분석을 통한 문제 해결 및 최적화복잡한 데이터 셋을 다루며 인사이트 도출전문성 개발 및 성장데이터 분석 및 시각화 역량 강화비즈니스와 연계된 데이터 기반 의사결정 지원관련된 분석 스킬데이터 탐색 및 전처리 (EDA, Data Wrangling)통계 및 확..

빅분기 스터디 1st

EDA를 효과적으로 훈련하기 위한 단계1. 데이터 이해 및 준비•데이터의 구조 파악: `head()`, `tail()`, `info()`, `describe()` 등을 사용해 데이터의 기본 정보를 확인합니다.•결측치 및 이상치 확인: 결측값(`isnull()`), 이상치(박스플롯 등)를 찾아내고 처리합니다.•데이터 타입 확인 및 변환: 각 열의 데이터 유형을 확인하고 필요 시 변환합니다.2. 기초 통계 분석•평균, 중앙값, 표준편차 등 주요 통계값을 계산하여 데이터 분포를 이해합니다.•속성 간 상관관계 분석: `corr()` 함수와 히트맵(Heatmap)을 사용해 변수 간 관계를 시각화합니다.3. 시각화를 통한 탐색•히스토그램, 박스플롯, 산점도 등을 활용해 데이터를 다양한 각도에서 시각화합니다.•Sea..

혼자공부하는 SQL 한빛미디어

혼자공부하는 SQL한빛미디어  아래는 오탈자 내용입니다. (출처: 한빛미디어)확인중인 오탈자버전 : 종이책페이지 : 400등록일 : 2025-02-11유형 : 내용 오류/확인 요청위치 : 손코딩 소스 코드 번호 매핑400페이지Code8-8.py → Code8-7#5.py401페이지Code8-9.py → Code8-8.py402페이지Code8-10.py → Code8-9.py책을 수정하지 않고 소스코드의 파일명을 변경해도 됩니다.이상입니다. 확인중인 오탈자버전 : 종이책페이지 : 400등록일 : 2024-09-07유형 : 주요 기술 오류(로직/코드)위치 : 해당 페이지 손코딩 부분[해당 부분]위젯 사이에 여백 소스코드 Code8-8.py‘혼공SQL_예제 파일’에 교재의 ‘위젯 사이에 여백 추가’ 부분에 해..

주말 빅분기 공부 계획

기본 원칙(나만의 원칙이므로 개인별로 맞는 기준을 설정하시는게 좋습니다.) 참고만 하세요.집중력 높은 오전: 사고력과 기억력이 좋은 오전 시간에 학습량이 많은 과목(빅분기, GA 강의)을 배치연계 학습: 구글 애널리틱스 강의와 빅분기 관련 개념을 선후행으로 배치해 연관 학습 강화오후 블록 학습: 피로도를 고려해 독서 및 블로그 정리를 배치휴식 & 리프레시: 집중이 필요한 학습 후 가벼운 활동(산책, 짧은 휴식) 배치시간표시간활    동07:30 - 08:00기상 & 가벼운 스트레칭08:00 - 09:00아침 식사 & 휴식 (1시간)09:00 - 11:00빅분기 시험 공부 (이론 개념 정리 & 문제풀이)11:00 - 12:00구글 애널리틱스 강의 수강 (빅분기 관련 내용 연결 학습)12:00 - 13:00..

빅데이터분석기사 25일 시험공부 계획

스터디카페 (이기적스터디카페)https://cafe.naver.com/yjbooks?tc=shared_link(하루 평균 1시간 기준)[1~8일차] 핵심 개념 빠르게 정리하기 (중요 개념만)개념당 20분씩만 압축 정리, 매일 요약 노트 작성 필수1일차: 데이터 이해 및 활용 (60분)데이터 개념, 유형(20분)데이터 수집, 저장, 처리 기술(20분)데이터 품질 관리(20분)2일차: 데이터 분석 기획 (60분)분석 목표 수립(20분)분석 방법론(20분)분석 프로젝트 관리(20분)3일차: 데이터 전처리 기법 (60분)정제 및 변환(20분)이상치 및 결측값 처리(20분)피처 엔지니어링(20분)4일차: 데이터 탐색 분석 (60분)기술 통계 핵심(20분)시각화 핵심(Histogram, Box plot 등)(20분..

머신러닝 이해하기2 (분류)

1. 혼동행렬(Confusion Matrix)의 개념혼동행렬은 분류 모델이 얼마나 잘 예측했는지 확인하는 표 형태의 도구입니다.분류 결과를 실제값과 예측값에 따라 네 가지로 구분하여 표현합니다.구분예측 Positive (P)예측 Negative (N)실제 Positive (P)TP (True Positive, 진짜 양성)FN (False Negative, 가짜 음성)실제 Negative (N)FP (False Positive, 가짜 양성)TN (True Negative, 진짜 음성)TP: 실제로도 양성, 예측도 양성 (정답)TN: 실제로도 음성, 예측도 음성 (정답)FP: 실제로는 음성이나, 양성으로 잘못 예측한 경우 (오류)FN: 실제로는 양성이나, 음성으로 잘못 예측한 경우 (오류)2. 평가 지표의 ..

머신러닝 이해하기(분류)

1. 데이터 유형의 종류데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 구분된다. 이를 세분화하면 다음과 같다.1.1. 정형 데이터 (Structured Data)특징: 행과 열로 구성된 구조화된 데이터예시:관계형 데이터베이스 (MySQL, PostgreSQL)엑셀 스프레드시트로그 데이터 (웹사이트 방문 기록)1.2. 반정형 데이터 (Semi-structured Data)특징: 일정한 구조를 가지지만 완전히 정형화되지 않은 데이터예시:JSON, XML 파일NoSQL 데이터베이스 (MongoDB)이메일 본문 및 메타데이터1.3. 비정형 데이터 (Unstructured Data)특징: 정해진 구조 없이 다양한 형식으로 존재하는 데이터예시:텍스트 데..

캔바(Canva)란?

캔바(Canva)란?캔바(Canva)는 디자인 초보자도 쉽게 사용할 수 있는 온라인 그래픽 디자인 및 문서 제작 도구입니다. 전문적인 디자인 소프트웨어(예: Photoshop, Illustrator) 없이도 프레젠테이션, 포스터, 소셜미디어 콘텐츠, 보고서, 브로슈어 등을 손쉽게 만들 수 있습니다.캔바의 주요 기능템플릿 기반 디자인보고서, 발표 자료, 포스터, 명함, 소셜미디어 콘텐츠 등 수천 개의 템플릿 제공템플릿을 선택 후 글자와 이미지 수정만으로 빠르게 제작 가능드래그 & 드롭 편집이미지, 도형, 아이콘, 텍스트, 그래프 등을 드래그 & 드롭 방식으로 쉽게 배치 가능협업 기능팀원들과 실시간 공동 편집 가능Google Docs처럼 댓글 달기 및 수정 요청 가능보고서 및 문서 제작 기능PDF, PPT,..

데이터 기반 의사결정을 위한 확률 및 분포 5-2]

1. 오차(Error)실제값과 예측값 간의 차이오차는 모델이 알 수 없는 진짜 차이를 의미합니다.수식으로 표현하면:오차(Error)=실제값−진짜모집단의예측값즉, 오차는 모델이 절대로 알 수 없는 이론적인 개념입니다.2. 잔차(Residual)실제 관측된 값과 모델이 실제로 예측한 값의 차이잔차는 데이터를 가지고 계산할 수 있는 실제 값과 모델 예측값의 차이를 의미합니다.수식으로 표현하면:잔차(Residual)=실제관측값−모델의예측값즉, 잔차는 모델이 실제 데이터에서 구할 수 있는 현실적인 값입니다.오차(Error) → 모델이 절대 모르는 진짜 값과의 차이 (이론적 개념)잔차(Residual) → 모델이 실제로 예측한 값과 데이터의 차이 (현실적 개념)쉽게 오차는 '이상적인(모집단) 차이', 잔차는 '실제..

데이터 기반 의사결정을 위한 확률 및 분포 5-1]

1. 상관관계와 인과관계 상관 관계양의 상관관계:음의 상관관계트래픽( ) 과 매출 상관관계는?트래픽과 매출의 관계트래픽(방문자 수 또는 유입량)과 매출의 상관관계는 일반적으로 양(+)의 상관관계가 있습니다.다만, 그 정도는 다음의 조건에 따라 달라질 수 있습니다.유입 트래픽의 품질타겟 고객군의 유입이 많다면 매출과 강한 양의 상관관계를 보인다.무작위로 늘어난 트래픽이라면 매출 상승과의 관련성이 낮을 수 있다.전환율(Conversion Rate)방문자 대비 구매율이 높다면, 트래픽 증가 시 매출이 비례적으로 증가한다.전환율이 낮다면, 트래픽 증가가 곧바로 매출 상승으로 이어지기 어렵다.마케팅 및 판매 전략프로모션, 할인 행사 등 전략적인 마케팅을 통해 유입된 트래픽은 매출 증가와 높은 상관성을 보인다.결..

구글 코렙 연결(Google Colab 연동)

자신의 구글드라이브가 있다면 from google.colab import drivedrive.mount('/content/drive/')Mounted at /content/drive/   결과값이 나오면 정상 연결 ( 자신의 구글드라이브와 구글개정이 있어야 됩니다.)이후 자신의 구글 드라이브에 폴더생성후 해당되는 주소를 코드에 입력하면 폴더안의 데이터 파일을 불러올 수 있습니다.1. 구글 드라이브와 구글 코랩 연결 구글 코랩은 클라우드 환경에서 Python을 실행할 수 있는 플랫폼으로, 구글 드라이브에 저장된 데이터를 활용하려면 먼저 드라이브와 연결해야 한다. 이를 통해 드라이브에 저장된 파일을 불러오거나 저장할 수 있다.2. 구글 드라이브 연결 방법구글 드라이브를 구글 코랩과 연결하는 방법은 크게 두 ..

구글 코렙 한글적용(Google Colab 한글)

한글 폰트(NanumGothic)를 설치한 후, matplotlib 폰트 캐시를 갱신하고, 강제로 다시 로드하는 과정이 추가되었습니다.이를 통해 matplotlib이 한글 폰트를 정상적으로 인식하게 합니다. # 1. 한글 폰트 설치 (Google Colab 전용)!apt-get update -qq!apt-get install -qq -y fonts-nanumimport matplotlib.pyplot as pltimport matplotlib.font_manager as fmimport os# 2. matplotlib에서 한글 폰트 설정def set_korean_font():    font_path = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf"  # 폰트 경..

데이터 기반 의사결정을 위한 확률 및 분포 4-2]

프로모션 A:전환한 고객수: 60명전환하지 않은 고객수: 440명전환율:  즉, 12%입니다.프로모션 B:전환한 고객수: 90명전환하지 않은 고객수: 410명전환율: 즉, 18%입니다.따라서, 각 프로모션의 전환율을 계산해보면:프로모션 A의 전환율은 12%프로모션 B의 전환율은 18%# A/B 프로모션별 전환 수와 비전환 수# [전환한 고객 수, 전환하지 않은 고객 수]promotion_A = [60, 440] # A 프로모션 (전환율 60/(60+440) = 12%)promotion_B = [90, 410] # B 프로모션 (전환율 90/(90+410) = 18%)# 카이제곱 검정을 위한 분할표 생성conversion_table = np.array([promotion_A, promotion_B])#..

데이터 기반 의사결정을 위한 확률 및 분포 4-1]

모수 검정(Parametric Test)모수 검정(Parametric Test)은 모집단이 특정한 확률 분포(주로 정규 분포)를 따른다고 가정하고 수행하는 통계적 검정 방법이다. 이러한 검정은 모집단의 평균, 분산 등과 같은 모수(parameter) 를 추정하고 비교하는 데 초점을 맞춘다.1. 모수 검정의 특징확률 분포 가정모집단이 특정한 분포(주로 정규 분포)를 따른다고 가정한다.데이터 크기일반적으로 표본 크기가 크거나(보통 30개 이상), 모집단이 정규성을 만족해야 한다.모수 사용모집단의 평균(μ), 분산(σ²) 등의 모수를 추정하고 비교한다.강력한 검정력주어진 가정이 충족될 경우, 비모수 검정보다 더 강력한 검정력을 가진다.2. 대표적인 모수 검정 종류검정 종류  /  사용 목적  / 예시t-검정 ..

데이터 분석 용어 및 정의 (영문)

데이터 분석 용어에 대한 전체 용어집을 만드는 과정입니다. 비어있는 곳은 추후 업데이트 됩니다.AA/B testing: The process of testing two variations of the same web page to determine which page is more successful at attracting user traffic and generating revenueAbsolute reference: A reference within a function that is locked so that rows and columns won’t change if the function is copiedAccess control: Features such as password protection..

올라운드 프로패셔널에 대하여

[출처 : 노가영 작가님 "콘텐츠가 전부다" 중 일부]"AI가 절대 쓸 수 없는 시나리오를 어떻게 쓸 것인지 매일 고민하고 있다. - 봉준호 감독" 세계적인 영화감독마저도 AI시대의 생존 방식을 우려하고 있습니다. AI의 진화로 인간의 지성과 행동력을 압도하는 미래가 찾아오더라도 기업이 필요로 하고 동료들이 함께 일하고 싶은 인재는 누구일까요?"AI가 절대 쓸 수 없는 시나리오를 어떻게 쓸 것인가 매일 고민하고 있다."주말에 개봉한 SF 영화 의 홍보 인터뷰에서 봉준호 감독이 한 말이다. 그는 "알파고와의 대국에서 보여준 이세돌 9단의 78수처럼. 그런 수가 3페이지 걸러 하나씩 나오는 시나리오를 쓰리라 다짐한다.”라고도 했다. 한국의 자랑이자 세계적 영화감독인 봉준호 감독마저도 AI시대, 작가의 생존 ..

SMALL