데이터 분석가:Applied Data Analytics 214

주석표시(SQL, 파이썬, 구글코렙)

다양한 프로그래밍 환경에서 주석을 다르게 사용합니다. 아래는 SQL, Python, BigQuery, Google Colab 등에서 사용하는 주석 기호와 발음 방법을 정리한 것입니다.1. SQL (Structured Query Language)주석 기호: - (한 줄 주석), /* */ (여러 줄 주석)한글 발음:-- → "더블 대시"/* */ → "슬래시 스타, 스타 슬래시"예제sql 복사편집 -- 한 줄 주석입니다. SELECT * FROM users; /*    여러 줄 주석입니다.    이 쿼리는 모든 사용자를 조회합니다. */ SELECT * FROM users; 2. Python (파이썬)주석 기호: # (한 줄 주석), ''' ''' 또는 """ """ (여러 줄 주석)한글 발음:# → "샵..

추론통계

1. 가설검정 (Hypothesis Testing)출제빈도: ★★★★★ (매우 자주 출제됨)핵심 개념: 모집단의 특성을 표본을 통해 검정하는 방법(1) 기본 개념귀무가설 (H0) vs 대립가설 (H1)H1H_1H0H_01종 오류 (Type I Error) & 2종 오류 (Type II Error)유의수준 (α)과 검정력 (Power)α\alpha(2) 주요 가설검정 기법단일표본 Z-검정: 모집단의 평균이 특정 값과 같은지 검정단일표본 t-검정: 모집단의 분산이 알려지지 않았을 때 평균 검정독립표본 t-검정: 두 모집단의 평균 차이 검정대응표본 t-검정: 같은 집단의 전후 비교 (Before-After)카이제곱 검정: 범주형 변수 간 독립성 검정2. 신뢰구간 (Confidence Interval)출제빈도:..

빅분기 스터디 내용1

1과목: 빅데이터 분석기획① 빅데이터의 정의와 특징 (3V → 5V)3VVolume(규모): 데이터의 크기Variety(다양성): 정형, 비정형, 반정형 데이터Velocity(속도): 빠르게 생성되고 처리되는 데이터추가된 특성(5V): Veracity(신뢰성), Value(가치)암기 TIP: "빅데이터는 크고(Volume), 다양하며(Variety), 빠르고(Velocity), 신뢰할 수 있어야(Veracity), 가치(Value)를 창출한다."데이터 분석 프로세스(CRISP-DM) 6단계비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포암기 TIP: "비데준 모평배" (비즈니스 이해→데이터 이해→준비→모델링→평가→배포)빅데이터 기술구조 및 플랫폼하둡(Hadoop): HDFS(분산..

P-value vs Posterior Tail-Area Probability

1. P-value와 Posterior Tail-Area Probability 비교P-value (빈도주의적 접근)귀무가설 (H0H_0H0​)이 참이라고 가정할 때, 관측된 데이터보다 극단적인 값이 나올 확률. 아래와 같은 형태.빈도주의(Frequentist) 가설 검정에서 사용.Posterior Tail-Area Probability (베이지안 접근)사후 확률 분포에서 특정 값 이상(또는 이하)의 확률. 아래와 같은 형태. 베이지안 추론에서 사용되며, 사전 정보와 데이터로부터 업데이트된 확률을 기반으로 함2. 차이점P-value: 가설(귀무가설)이 참이라는 전제 하에서 데이터를 해석.Posterior Tail-Area Probability: 가설보다는 사후 확률 분포에서 특정 값이 차지하는 비율을 의미..

피어슨 상관계수 vs 스피어만 순위 상관계수

공통점두 변수 간의 상관 관계(연관성) 를 측정하는 방법이다.결과 값은 -1 ~ 1 사이이다.1: 완벽한 양의 상관-1: 완벽한 음의 상관0: 관계 없음1. 피어슨 상관계수 (Pearson Correlation Coefficient)특징연속형(수치) 데이터에서 사용두 변수 간의 직선적(선형) 관계를 측정평균과 표준편차를 이용하여 계산이상치(극단값)에 민감함사용 예시키와 몸무게의 관계온도와 아이스크림 판매량핵심 요약"정확한 수치 데이터에서 직선 관계를 분석할 때 사용"2. 스피어만 순위 상관계수 (Spearman Rank Correlation)특징순위(서열) 데이터에서 사용 (즉, 숫자의 크기가 아니라 순서가 중요할 때)두 변수 간의 비선형 관계(곡선적 관계)도 측정 가능데이터의 크기 차이보다는 순서(랭킹..

Streamlit 설치 순서 및 주의점

우선 필요한 설치관련 (안정성 기준) txt파일을 준비했습니다. (아래 파일을 다운받으시면 됩니다)1. base 환경으로 전환Anaconda Prompt를 열고 현재 활성화된 가상환경(pandas)을 비활성화합니다:conda deactivate프롬프트가 **(base)**로 변경되면 기본 환경으로 돌아왔음을 확인할 수 있습니다:(base) C:\\Users\\onesa> # 폴더주소는 개인마다 다름니다2. 새 가상환경 생성다음 명령어를 사용하여 Python 3.11 기반의 새로운 가상환경을 생성합니다:conda create --name streamlitenv python=3.11"Proceed ([y]/n)?"라는 메시지가 나오면 **y**를 입력하여 설치를 진행합니다.3. 새 가상환경 활성화생성된 가상..

Streamlit 란?

Streamlit은 데이터 과학 및 머신러닝 애플리케이션을 쉽게 만들고 배포할 수 있는 Python 라이브러리입니다.웹 개발 지식 없이도 Python 코드 몇 줄만으로 대화형 데이터 대시보드 및 웹 앱을 만들 수 있도록 도와줍니다.Streamlit의 주요 특징간단한 코드로 웹 애플리케이션 개발 가능HTML, CSS, JavaScript 같은 웹 기술을 몰라도, Python만 사용해서 웹 앱을 만들 수 있습니다.예를 들어, Pandas DataFrame을 쉽게 웹에서 표시할 수 있습니다.빠른 대시보드 제작Streamlit은 데이터 분석 결과를 빠르게 시각화할 수 있도록 지원합니다.Matplotlib, Plotly, Altair 같은 라이브러리와 쉽게 연동됩니다.대화형 UI 제공st.button(), st...

빅분기 계산문제

1. 결측치 처리 문제문제:근속연수 컬럼의 결측치를 부서와 성과등급별 평균값으로 대체하고, 결측치가 채워진 후 근속연수 컬럼을 정수형으로 변환하세요.풀이:부서와 성과등급별로 그룹화하여 평균값 계산:pythongroup = df.groupby(['부서', '성과등급'])['근속연수'].mean()결측값을 그룹별 평균값으로 대체:pythonnew_work_list = [] for index, value in enumerate(df['근속연수']): if pd.isna(value): *# 결측치 확인* buseo = df['부서'].iloc[index] sunggwa = df['성과등급'].iloc[index] new_work_list.append(group.loc[(buseo, sunggwa)]) else:..

Instacart Market Basket Analysis

고객 세그멘테이션이 필요한 이유고객 맞춤형 마케팅모든 고객에게 동일한 마케팅을 적용하는 것보다 각 고객 그룹의 특성에 맞춘 전략을 수립하는 것이 효과적예: VIP 고객에게 더 많은 혜택 제공, 신규 고객에게 할인 쿠폰 제공고객 행동 패턴 분석고객이 언제, 무엇을, 얼마나 자주 구매하는지에 따라 그룹을 나누어 더 깊은 인사이트를 얻을 수 있음비용 절감 & 마케팅 효율성 증가마케팅 비용을 모든 고객에게 동일하게 투입하는 것보다 타겟팅된 그룹에 집중 투자하면 비용 대비 효과가 높아짐수익 극대화특정 그룹(예: 높은 지출을 하는 고객)에게 맞춘 전략을 제공하여 매출 증대1. 해결하려는 목적?재구매 패턴 파악: 고객이 특정 제품을 얼마나 자주 재구매하는지 분석하여 마케팅 전략을 최적화연관 상품 추천: 고객이 자주 ..

데이터 분석 단계

데이터 분석 단계 데이터 분석 과정의 각 단계(질문, 준비, 처리, 분석, 공유, 실행)는 데이터에서 의미 있는 인사이트를 추출하는 데 중요한 역할을 합니다. 올바른 질문부터 정보에 기반한 조치에 이르기까지 각 단계를 탐색하면서 데이터의 진정한 힘을 활용할 수 있습니다.질문하기 단계성공적인 데이터 분석의 시작은 데이터 애널리스트입니다:이해관계자의 기대치를 완전히 이해하는 데 시간을 할애합니다해결해야 할 문제를 정의합니다문제 해결을 위해 어떤 질문에 답할지 결정합니다이해관계자의 기대치를 파악한다는 것은 이해관계자가 누구인지, 그들이 무엇을 원하는지, 언제 원하는지, 왜 원하는지, 그들과 가장 잘 소통하는 방법을 결정하는 것을 의미합니다. 문제를 정의한다는 것은 현재 상태를 살펴보고 이상적인 상태와 다른 점..

데이터 수명 주기 중 '분석' 단계

분석(Analyze) 단계 개요데이터 수명 주기의 중심 단계로, 수집된 데이터를 활용해 인사이트를 도출하는 과정이다.데이터 전처리가 완료된 후, 적절한 분석 기법을 적용하여 의미 있는 결론을 도출할 수 있다.분석 단계 주요 활동데이터 탐색(Exploratory Data Analysis, EDA)데이터를 시각화하고 분포, 패턴, 이상값을 파악하는 과정이다.히스토그램, 상자 그림(Box plot), 산점도 등을 활용할 수 있다.데이터 변환 및 특징 엔지니어링(Feature Engineering)분석 목적에 맞게 변수를 변환하거나 새로운 변수를 생성하는 과정이다.스케일링(Scaling), 정규화(Normalization), 원-핫 인코딩(One-Hot Encoding) 등의 기법을 사용할 수 있다.통계 분석 ..

kaggle Instacart Market Basket Analysis 프로젝트

3일 일정 및 역할 분배4명이서 진행하는 경우, EDA는 각자 개별적으로 진행한 후, 3일 동안 가설 설정, 예측 모델링, 분석, 보고서 작성 및 발표 준비를 진행하는 최적의 역할 분배안을 정리1. 역할 분배 (4인 기준)역할담당자주요 업무A: 데이터 리더팀원 1데이터 전처리, 피처 엔지니어링B: 모델링 담당팀원 2머신러닝 모델 구축 및 성능 평가C: 인사이트 분석 담당팀원 3예측 결과 분석 및 비즈니스 인사이트 도출D: 보고서 및 발표 담당팀원 4최종 보고서 및 발표 자료 제작 2. 3일 일정 (하루 7시간 기준)Day 1: 가설 설정 및 데이터 전처리(공통) 개별 EDA 결과 공유 (1시간)(A: 데이터 리더) 데이터 전처리 및 피처 엔지니어링 (4시간)(B: 모델링 담당) 예측 모델 기초 설계 및 ..

violinplot

Violin Plot(바이올린 플롯) 설명1. Violin Plot 개념Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.2. Violin Plot의 특징밀도 곡선(KDE, Kernel Density Estimation)데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다...

선형대수학(Linear Algebra) 개요

선형대수학은 벡터, 행렬, 선형 변환 등을 연구하는 수학 분야로, 데이터 분석, 기계 학습, 컴퓨터 그래픽스 등 다양한 분야에서 활용된다.1. 기본 개념스칼라(Scalar)하나의 수 (예: 3, -1, 0.5)선형대수에서 크기만 있는 값벡터(Vector)크기와 방향을 가지는 값의 집합n차원 공간에서 한 점을 나타낼 수 있음행렬(Matrix)숫자가 사각형 형태로 배열된 것예: A=[1234]A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}A=[13​24​]벡터의 집합을 표현하거나 변환 연산을 수행하는 데 사용텐서(Tensor)행렬보다 더 고차원의 다차원 배열기계학습에서는 다차원 데이터를 표현하는 데 사용2. 벡터 연산벡터 덧셈과 뺄셈같은 차원의 벡터끼리 더하거나 뺄 수..

데이터 분석 단계

1. 질문하기(Ask)문제 정의 및 목표 설정이해관계자의 요구사항 분석데이터 분석이 해결해야 할 핵심 질문을 식별핵심 질문비즈니스 문제는 무엇인가?데이터 분석을 통해 어떤 의사결정을 도울 것인가?주요 이해관계자는 누구이며, 그들의 요구사항은 무엇인가?2. 데이터 수집하기(Prepare)분석에 필요한 데이터 확인 및 수집데이터 원천(데이터베이스, API, 스프레드시트 등) 선택데이터 품질 평가(결측치, 이상치, 불완전한 데이터 확인)핵심 질문필요한 데이터는 어디에서 가져올 수 있는가?데이터가 신뢰할 수 있는가?데이터 정리가 필요한가?3. 데이터 처리하기(Process)데이터 정제(결측치 처리, 중복 제거, 형식 변환 등)데이터 변환 및 정규화데이터 품질 검사 및 오류 수정핵심 질문데이터에서 오류나 불일치가..

모듈 1 챌린지 오답노트

데이터 전문가는 항상 새로운 기술을 배우고 지식을 습득하는 데 관심이 많습니다. 그들은 종종 직장에서 도전적인 과제와 전문성 개발 경험을 찾습니다. 이 시나리오는 어떤 분석 스킬을 설명할까요?호기심 데이터 설계기술적 사고방식맥락 이해이문제의 주요 핵심내용새로운 기술 학습데이터 전문가는 지속적으로 새로운 도구 및 기술(Stack)을 습득해야 함예: Python, SQL, R, BigQuery, Looker, 머신러닝 모델링 등도전적인 과제 해결 능력데이터 분석을 통한 문제 해결 및 최적화복잡한 데이터 셋을 다루며 인사이트 도출전문성 개발 및 성장데이터 분석 및 시각화 역량 강화비즈니스와 연계된 데이터 기반 의사결정 지원관련된 분석 스킬데이터 탐색 및 전처리 (EDA, Data Wrangling)통계 및 확..

빅분기 스터디 1st

EDA를 효과적으로 훈련하기 위한 단계1. 데이터 이해 및 준비•데이터의 구조 파악: `head()`, `tail()`, `info()`, `describe()` 등을 사용해 데이터의 기본 정보를 확인합니다.•결측치 및 이상치 확인: 결측값(`isnull()`), 이상치(박스플롯 등)를 찾아내고 처리합니다.•데이터 타입 확인 및 변환: 각 열의 데이터 유형을 확인하고 필요 시 변환합니다.2. 기초 통계 분석•평균, 중앙값, 표준편차 등 주요 통계값을 계산하여 데이터 분포를 이해합니다.•속성 간 상관관계 분석: `corr()` 함수와 히트맵(Heatmap)을 사용해 변수 간 관계를 시각화합니다.3. 시각화를 통한 탐색•히스토그램, 박스플롯, 산점도 등을 활용해 데이터를 다양한 각도에서 시각화합니다.•Sea..

혼자공부하는 SQL 한빛미디어

혼자공부하는 SQL한빛미디어  아래는 오탈자 내용입니다. (출처: 한빛미디어)확인중인 오탈자버전 : 종이책페이지 : 400등록일 : 2025-02-11유형 : 내용 오류/확인 요청위치 : 손코딩 소스 코드 번호 매핑400페이지Code8-8.py → Code8-7#5.py401페이지Code8-9.py → Code8-8.py402페이지Code8-10.py → Code8-9.py책을 수정하지 않고 소스코드의 파일명을 변경해도 됩니다.이상입니다. 확인중인 오탈자버전 : 종이책페이지 : 400등록일 : 2024-09-07유형 : 주요 기술 오류(로직/코드)위치 : 해당 페이지 손코딩 부분[해당 부분]위젯 사이에 여백 소스코드 Code8-8.py‘혼공SQL_예제 파일’에 교재의 ‘위젯 사이에 여백 추가’ 부분에 해..

주말 빅분기 공부 계획

기본 원칙(나만의 원칙이므로 개인별로 맞는 기준을 설정하시는게 좋습니다.) 참고만 하세요.집중력 높은 오전: 사고력과 기억력이 좋은 오전 시간에 학습량이 많은 과목(빅분기, GA 강의)을 배치연계 학습: 구글 애널리틱스 강의와 빅분기 관련 개념을 선후행으로 배치해 연관 학습 강화오후 블록 학습: 피로도를 고려해 독서 및 블로그 정리를 배치휴식 & 리프레시: 집중이 필요한 학습 후 가벼운 활동(산책, 짧은 휴식) 배치시간표시간활    동07:30 - 08:00기상 & 가벼운 스트레칭08:00 - 09:00아침 식사 & 휴식 (1시간)09:00 - 11:00빅분기 시험 공부 (이론 개념 정리 & 문제풀이)11:00 - 12:00구글 애널리틱스 강의 수강 (빅분기 관련 내용 연결 학습)12:00 - 13:00..

빅데이터분석기사 25일 시험공부 계획

스터디카페 (이기적스터디카페)https://cafe.naver.com/yjbooks?tc=shared_link(하루 평균 1시간 기준)[1~8일차] 핵심 개념 빠르게 정리하기 (중요 개념만)개념당 20분씩만 압축 정리, 매일 요약 노트 작성 필수1일차: 데이터 이해 및 활용 (60분)데이터 개념, 유형(20분)데이터 수집, 저장, 처리 기술(20분)데이터 품질 관리(20분)2일차: 데이터 분석 기획 (60분)분석 목표 수립(20분)분석 방법론(20분)분석 프로젝트 관리(20분)3일차: 데이터 전처리 기법 (60분)정제 및 변환(20분)이상치 및 결측값 처리(20분)피처 엔지니어링(20분)4일차: 데이터 탐색 분석 (60분)기술 통계 핵심(20분)시각화 핵심(Histogram, Box plot 등)(20분..

300x250
SMALL