데이터분석가 32

보고서 vs 대시보드

목적과 활용보고서: 특정 이슈나 분석 결과를 상세히 서술하고 설명하는 문서 형태의 자료.대시보드: 핵심 정보를 빠르고 직관적으로 파악할 수 있도록 시각적으로 요약한 자료.정보의 표현 방식보고서: 주로 텍스트, 표, 그래프를 활용해 설명적이고 상세한 내용 전달.대시보드: 주로 그래프, 차트, 숫자 카드 등으로 시각화하여 직관적이고 즉각적인 이해 가능.정보의 양과 깊이보고서: 정보의 양이 많고 상세한 분석, 근거, 해석 등 깊이 있는 내용을 포함.대시보드: 정보가 압축적이고 핵심적이며, 한눈에 보이도록 최소한의 필수 정보만 표현.업데이트 주기 및 시간적 특성보고서: 주로 주간, 월간, 분기, 연간 등 주기적으로 작성하며 과거 데이터 중심.대시보드: 실시간 또는 매우 짧은 주기로 자동 업데이트 가능하며 현재 ..

데이터 분석가의 숫자유감

데이터 분석가의 숫자유감대부분의 데이터분석관련책이 일본사람이 쓴도서가 많다. 그것도 약 10년전 그만큼 일본은 생산성과 데이터의 과거 기술은 무시할수 없다.그중에서 한국인이 쓴 책중에 가장 읽기 편하고 쉬운 책이 아닌가 생각된다.최근에는 책표지가 바꼈다. 책표지만 보고 우습게보면 안된다. 이책은 쉽게 읽을수있으면서 깊은 내용을 담고 있어 데이터분석가를 목표로 한다면 꼭 읽어 볼것을 권합니다.많은 내용이 들어있지는 안지만 시작하는 입장이라면 강추하는 책이 아닌가.책을 많이 읽어본 사람이라면 몇일내 일을수 있는 내용이라 무조건 읽거나 소장가치가 있는 책이라고 자부한다.난이도는 쉬운편이다.

Main Quest06_Project_Tableau 태블로 시각화 6-6

태블로 에서 최종 인터랙티브 한 동적효과 구현한 최종 결과물주간 Trend_주문수의 해당 주를 선택하면 나머지 지수와 그래프는 이에 맞게 실시간 변형됨Los Angeles CA지점을 선택하면 해당 지점의 정보와 오른쪽 센터위치의 날씨가 실시간 표시된다.Clear sky 맑은하늘물류센터를 다른쪽 선택시 오른쪽 센터위치 날씨가 실시간 바뀐다  overcast clouds : 흐린 구름아래는 로스엔젤레스 센터에서 Port Authority of New Youk센터까지의 물류이동시간과 경로가 나온다.물론 항공운송일때는 5시간10분차로 이동시에는 41시간 이다. 물류의 배송의 시급성에 따라 운송수단을 선택할 수 있다.물류센터 현황MQ06_C3_Project Lesson Learn  빅쿼리 작업연동하여 실시간 서비..

Main Quest06_Project_Tableau 태블로 시각화 6-5

기본 계산 필드1. 배송 지연 여부 (숫자 플래그)IF [delivery_status] = "지연" THEN 1 ELSE 0 END용도: 지연률 계산, 지연 수량 집계2. 날씨별 지연률SUM(IF [delivery_status] = "지연" THEN 1 ELSE 0 END)/ COUNT([order_item_id])용도: 날씨 조건별 지연률 분석3. 비 또는 눈일 때 배송 상태IF [condition] IN ("Rain", "Snow") THEN [delivery_status] ELSE NULL END용도: 궂은 날씨일 때의 배송 결과만 필터링4. 날씨 + 배송상태 조합 필드[condition] + " | " + [delivery_status]용도: 교차표, 트리맵, 바 차트용 카테고리 생성예시:"Rai..

Main Quest06_Project_Tableau 태블로 시각화 6-4

태블로에서 필요한 v_logistics_dashboard_4.csv 파일을 생성 후1. 대시보드 목적 정의목표: 배송 효율성과 고객 만족을 극대화하기 위해 주요 물류 KPI를 실시간으로 모니터링하고, 지역별/센터별 문제를 빠르게 식별2. 주요 KPI 지표 선정핵심 성과 지표(KPI):총 주문 수 (total_orders)지연 주문 수 (delayed_orders)반품 주문 수 (returned_orders)지연율 (delay_rate)반품율 (return_rate)정시배송률 (on_time_rate)SPI (Service Performance Index, spi_score)평균 배송일 (delivery_days)3. SPI 구상SPI 정의 예시 (데이터에 포함된 지수 기반):→ 이미 계산된 spi_sco..

Main Quest06_Project_Tableau 태블로 시각화 6-3

태블로용 예측결과 데이터 생성현재 머신러닝 예측 중 One-Hot Encoding으로 인해 메모리 초과(MemoryError)가 발생이유는 state, name 같은 범주형 변수가 너무 많은 고유 값을 가져서 수천 개의 열로 확장되었기 때문.해결 방안범주형 변수는 Label Encoding으로 바꾸고, 나머지는 그대로 유지하여 메모리를 줄임. 다시 예측 파일을 생성. ​​여전히 메모리 초과가 발생. 데이터 양이 많아서 모델 전체 학습에 부담이 가는 상황. 이를 해결하기 위해:해결 전략데이터의 일부만 샘플링하여 모델을 학습하고 예측.샘플 데이터(예: 10,000건)를 사용하면 빠르게 예측 가능, 태블로 테스트용으로도 충분.  ​​지속적인 메모리 초과로 인해 학습 및 저장이 어려운 상황!해결 방안 요약 (태..

Main Quest06_Project_Tableau 태블로 시각화 6-2

1. 운영팀: Sales 분석 대시보드목적: 일별/월별 매출, 주문/반품 현황, 전체 비즈니스 흐름 파악주요 분석 내용• 전체 매출 및 순매출 (반품 제외)• 주문 수, 반품 수, 반품률• 일/주/월별 매출 트렌드• 사용자당 평균 주문 수 & 평균 매출 (AOV)• 성별/연령대별 매출 분포필요한 테이블 및 컬럼• orders.csv• order_id, user_id, status, created_at, returned_at, delivered_at, num_of_item• order_items.csv• order_id, inventory_item_id, returned_at, status• inventory_items.csv• cost, product_retail_price• users.csv• age,..

Main Quest06_Project_Tableau 태블로 시각화 6-1

피그마 링크 (암호: aiffel) https://www.figma.com/design/kr6NrmqIG8QTAdVHSYTt6c/Untitled?node-id=0-1&t=iWyFTulKIA4HY72R-1 코랩 링크공동작업을 위해서는 구글빅쿼리로 작업을 진행하고 데이터마트를 만들어서 서로 공유장점 : 공동작업과 중간에 업데이트는 쿼리코드만 공유하면 쉽게 데이터나 뷰가 생성된다.     - 주의 : 사전에 이런정보를 공유하지 않으면 개인의 쿼리코드작업후 저장안된건 공유불가능 빅쿼리는 저장안한 코드는 삭제됨.         보안책 : 이럴경우 빅쿼리에서 본인이 업데이트한 뷰나 테이블을 CSV로 저장(빅쿼리 에서 저장할 수 있음) 한 후 공유하면됨이때 아래 처럼 빅쿼리 공유를 구글이메일로 권한을 줘야 액세스 거..

데이터 분석가에게 적합한 직업을 찾는 방법

핵심 고려 사항은 다음과 같습니다.업종: 어떤 업종에 관심이 있으신가요? 각 업종마다 데이터를 사용하는 방식이 다릅니다.도구: 어떤 데이터 분석 도구에 익숙하신가요?위치 및 출장: 어디에서 일하고 싶으신가요? 출장은 괜찮으신가요?문화: 어떤 회사 문화에서 가장 잘 맞으신가요?이러한 요소들을 고려하여 자신에게 맞는 직업을 찾는 것이 중요합니다.가장 중요한 직업 선택 요소는 무엇인가요? 모든 요소들이 중요하지만 자신의 관심사가 가장 중요해요! 어떤 일을 할 때 즐겁고 보람을 느끼는지 생각해보세요. 데이터 분석 기술을 어떤 분야에 적용하고 싶은지 스스로에게 질문해 보는 것이죠. 예를 들어, 사람들이 건강해지는 데 기여하고 싶다면, 병원 입원율을 개선하는 데 데이터를 사용하는 직업을 고려할 수 있습니다.어떤 산..

공정성을 고려해야 된다.

공정한 분석을 지원하는 몇 가지 전략은 다음과 같습니다.분석을 지원하는 몇 가지 전략은 다음과 같습니다.모범 사례설명예사용 가능한 모든 데이터를 고려하세요데이터 분석가로서 당신의 업무 중 일부는 당신의 분석에 어떤 데이터가 유용할지 결정하는 것입니다. 종종 당신이 집중하는 것과 관련이 없거나 당신의 기대와 일치하지 않는 데이터가 있을 것입니다. 하지만 그냥 무시할 수는 없습니다. 당신의 분석이 당신의 기대만이 아니라 진실을 반영하도록 모든 사용 가능한 데이터를 고려하는 것이 중요합니다.한 주의 교통부는 휴일 교통 패턴을 측정하는 데 관심이 있습니다. 처음에는 교통량과 휴일이라는 사실과 관련된 지표만 포함합니다. 하지만 데이터 팀은 휴일 날씨가 교통량에 어떤 영향을 미칠 수 있는지 고려하지 못했다는 것을 ..

데이터분석의 개인적, 기술적 측면 이란?

개인적인 측면:소통과 협력: 분석 결과를 다른 사람들에게 이해하기 쉽게 전달하고, 그들의 의견을 경청하여 분석에 반영하는 데 중요한 역할을 합니다.공감 능력: 데이터 뒤에 숨겨진 사람들의 이야기와 문제 상황을 이해하는 데 도움을 주어, 더욱 효과적인 분석을 가능하게 합니다.예시 : 분석 결과를 이해하기 쉽게 설명하는 데이터 분석가: 복잡한 분석 결과를 이해하기 쉬운 용어와 시각 자료를 사용하여 마케팅 팀에 설명하고, 캠페인 개선 방안을 제시합니다. 이때 데이터 분석가는 마케팅 팀의 의견을 경청하고, 그들의 요구를 반영하여 분석 결과를 더욱 효과적으로 전달합니다.고객 만족도 향상을 위해 노력하는 데이터 과학자: 고객 설문 조사 데이터를 분석하여 고객 불만의 근본 원인을 파악하고, 고객 서비스 개선을 위한 ..

violinplot

Violin Plot(바이올린 플롯) 설명1. Violin Plot 개념Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.2. Violin Plot의 특징밀도 곡선(KDE, Kernel Density Estimation)데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다...

모듈 1 챌린지 오답노트

데이터 전문가는 항상 새로운 기술을 배우고 지식을 습득하는 데 관심이 많습니다. 그들은 종종 직장에서 도전적인 과제와 전문성 개발 경험을 찾습니다. 이 시나리오는 어떤 분석 스킬을 설명할까요?호기심 데이터 설계기술적 사고방식맥락 이해이문제의 주요 핵심내용새로운 기술 학습데이터 전문가는 지속적으로 새로운 도구 및 기술(Stack)을 습득해야 함예: Python, SQL, R, BigQuery, Looker, 머신러닝 모델링 등도전적인 과제 해결 능력데이터 분석을 통한 문제 해결 및 최적화복잡한 데이터 셋을 다루며 인사이트 도출전문성 개발 및 성장데이터 분석 및 시각화 역량 강화비즈니스와 연계된 데이터 기반 의사결정 지원관련된 분석 스킬데이터 탐색 및 전처리 (EDA, Data Wrangling)통계 및 확..

빅데이터분석기사 25일 시험공부 계획

스터디카페 (이기적스터디카페)https://cafe.naver.com/yjbooks?tc=shared_link(하루 평균 1시간 기준)[1~8일차] 핵심 개념 빠르게 정리하기 (중요 개념만)개념당 20분씩만 압축 정리, 매일 요약 노트 작성 필수1일차: 데이터 이해 및 활용 (60분)데이터 개념, 유형(20분)데이터 수집, 저장, 처리 기술(20분)데이터 품질 관리(20분)2일차: 데이터 분석 기획 (60분)분석 목표 수립(20분)분석 방법론(20분)분석 프로젝트 관리(20분)3일차: 데이터 전처리 기법 (60분)정제 및 변환(20분)이상치 및 결측값 처리(20분)피처 엔지니어링(20분)4일차: 데이터 탐색 분석 (60분)기술 통계 핵심(20분)시각화 핵심(Histogram, Box plot 등)(20분..

데이터 기반 의사결정을 위한 확률 및 분포 5-1]

1. 상관관계와 인과관계 상관 관계양의 상관관계:음의 상관관계트래픽( ) 과 매출 상관관계는?트래픽과 매출의 관계트래픽(방문자 수 또는 유입량)과 매출의 상관관계는 일반적으로 양(+)의 상관관계가 있습니다.다만, 그 정도는 다음의 조건에 따라 달라질 수 있습니다.유입 트래픽의 품질타겟 고객군의 유입이 많다면 매출과 강한 양의 상관관계를 보인다.무작위로 늘어난 트래픽이라면 매출 상승과의 관련성이 낮을 수 있다.전환율(Conversion Rate)방문자 대비 구매율이 높다면, 트래픽 증가 시 매출이 비례적으로 증가한다.전환율이 낮다면, 트래픽 증가가 곧바로 매출 상승으로 이어지기 어렵다.마케팅 및 판매 전략프로모션, 할인 행사 등 전략적인 마케팅을 통해 유입된 트래픽은 매출 증가와 높은 상관성을 보인다.결..

확률과 분포 이해하기 3]

학습목표연속형 확률과 이산형 확률에 대해 이해합니다.다양한 확률의 분포를 알아봅니다.실습 Python 활용 다양한 분포 익히기제이슨을 회사에서 많이 다룬다 SQL이나 파이썬에서 파씽 할 줄 알아야된다.제이슨을 많이 다뤄보면 좋다.JSON (JavaScript Object Notation) 이란?1. JSON의 특징1) 경량 데이터 포맷XML과 비교하여 데이터 표현이 간결하며, 파일 크기가 작음.텍스트 기반이므로 사람이 읽고 이해하기 쉬움.2) 키-값 (Key-Value) 형식Python의 딕셔너리(Dictionary)와 유사한 구조.데이터는 "키(Key)" 와 "값(Value)" 형태로 저장됨.3) 다양한 프로그래밍 언어에서 지원JSON은 Python, JavaScript, Java, C++, PHP, ..

빅분기(빅데이터 분석기사) 시험이란?

빅데이터 분석기사(Big Data Analyst, BDA) 시험은 한국데이터산업진흥원(K-DATA)에서 주관하는 국가기술자격 시험으로, 빅데이터를 활용한 데이터 분석 역량을 검증하는 자격증이다.1. 시험 개요정식 명칭: 빅데이터 분석기사영문 명칭: Big Data Analyst (BDA)주관 기관: 한국데이터산업진흥원(K-DATA)응시 자격: 제한 없음 (누구나 응시 가능)시험 방식: 필기(객관식) + 실기(주관식 및 실습)2. 시험 과목 및 출제 내용1차 필기 시험 (객관식 4지 선다형, 100점 만점, 60점 이상 합격)과목 주요 내용빅데이터 분석 기획데이터 분석 프로세스, 비즈니스 요구 사항 정의빅데이터 탐색데이터 수집, 전처리, 데이터 유형 및 구조 분석빅데이터 모델링통계 기법, 머신러닝, 데이터..

Main Quest04 실습-3일차2nd

output_df = pd.read_csv("/content/drive/MyDrive/아이펠_오마카세_프로젝트/output.csv")# 모든 컬럼 표시 옵션 설정 (옵션)pd.set_option('display.max_columns', None)# 데이터셋 상위 5개 행 출력print(output_df.head())# 각 컬럼별 결측치 개수 확인  총3개의 컬럼에서 결측치 발견print("결측치 현황:")print(output_df.isnull().sum())# 중복 데이터 확인 중복데이터 없음print("중복 행 수:", output_df.duplicated().sum())brand_name 컬럼에서 결측치가 가장 많고, sub3_category와 sub4_category도 상당..

데이터분석 책 읽는 순서 데이터 분석

1. 세상에서 가장 쉬운 통계학입문 - 확률과 분포 강의를 듣고 있는 지금 가장 먼저 읽어야 할 책이다. 중학교 수학 지식만으로도 이해할 수 있게 사칙연산, 제곱, 루트만으로 통계학의 기초를 설명하고 있어, 기술 통계와 추론 통계의 기본 개념, 표준편차, 정규분포, 가설검정, 구간추정 등을 쉽게 설명하여 현재 듣고 있는 확률과 분포 강의의 이해를 크게 도울 것. 2. 누워서 읽는 통계학 - “세상에서 가장 쉬운 통계학입문”에서 배운 기초 개념을 더 확장하고 심화할 수 있다. 통계학의 기본 개념을 쉽게 설명하고 있어 확률과 분포 강의 내용을 보완하는데 도움이 될 것. 3. 데이터 과학을 위한 통계(2판) - 통계학 기초를 다진 후에는 이 책으로 데이터 과학에 필요한 통계 개념을 더 깊이 학습하는..

추천도서 데이터 분석가 2개월후

2개월 동안 Python, SQL, BigQuery, Looker, Notion, GitHub 등을 학습하고, 팀 프로젝트를 통해 Kaggle 데이터를 활용하여 데이터 클리닝, 결측치, 이상치 처리 후 분석에 필요한 컬럼 및 시각화 분석후 발표 및 보고서 작성 경험후 추천 책 입니다.세상에서 가장 쉬운 통계학 입문 (난이도: ★☆☆☆☆)복잡한 공식과 기호를 사용하지 않고, 사칙연산과 제곱, 루트 등 중학교 기초수학만으로 통계학의 기초를 확실히 다질 수 있도록 돕는 입문서입니다.교보문고 링크 누워서 읽는 통계학 (난이도: ★★☆☆☆)다양한 도식화와 수학적 접근의 최소화를 통해 통계학의 기본 개념을 쉽게 이해할 수 있도록 구성된 책입니다.교보문고 링크2단계: 데이터 분석 실무 적용 (중급)A/B 테스트 (난..

300x250
SMALL