시각화 19

데이터 시각화를 위한 도구

출처 : 다음은 구글 데이터 애널리틱스 교육과정중에 내용입니다. 의사결정의 중요한 요소중에 데이터로 부터 가치를 얻기위해서는 다른사람들이 알기쉽게 데이터를 시각화하는 과정이 필요합니다. 이 교육 과정에서는 Tableau와 스프레드시트로 작업하게 됩니다. 이 두 도구 모두 장단점이 있습니다. 데이터 분석가는 종종 단일 프로젝트에서도 여러 도구를 사용해야 하는 경우가 있습니다. 어떤 도구를 사용할지는 주로 수행 중인 작업과 목표에 따라 결정됩니다. 이 글에서는 데이터 시각화 및 프레젠테이션에 사용할 수 있는 두 가지 도구, 즉 스프레드시트와 Tableau에 대해 살펴봅니다. 스프레드시트(여러 종류가 있지만 그중에 엑셀도 스프레드시트에 한종류입니다.)Google Workspace와 Microsoft Offic..

Amplitude (앰플리튜드) 란?

Amplitude(앰플리튜드)를 활용해 프로젝트 분석 보고서를 작성하려는 초보자를 위한 기초 사용법 매뉴얼입니다. 가능한 쉽게, 체계적으로, 단계별로 정리 했습니다.Amplitude 사용법 초보자 매뉴얼1. Amplitude란 무엇인가?Amplitude는 제품 분석(Product Analytics) 도구로, 사용자의 행동 데이터를 기반으로 사용자 흐름, 전환, 이탈, 잔존율, 이벤트 성과 등을 분석할 수 있음.Google Analytics보다 제품 내부 행동 분석에 특화되어 있음.Amplitude에서는 고객 이탈률(Churn Rate), 재방문율(Retention Rate) 등 고객 행동 분석 지표를 시각화해서 볼 수 있고,당신이 운영하는 블로그처럼 서비스 웹사이트/앱 사용자 흐름을 추적하는 데 아주 효..

Heatmap 차트 (Retention Matrix) - 클라우드슈퍼셋 시각화

1. Heatmap 차트 (Retention Matrix) – 가장 임팩트 있고 전통적인 표현목표:가입 Cohort 별로 Day 0 ~ Day 7까지의 Retention 비율을 시각화 (색상으로 유지율 차이 강조)Superset 차트 설정법:설정 항목값Chart TypeHeatmapRow (Y축)cohort_weekColumn (X축)days_since_first_visitMetric (Value)COUNT(DISTINCT fullVisitorId)FilterisFirstVisit = 0 (재방문만 포함)Normalize열 기준으로 비율 계산 (% of row total 옵션)Tooltipcountry, deviceCategory, trafficSource 추가하면 hover 시 상세 정보 표시Color..

Sankey 차트를 LTV 시각화에 사용하는 이유

LTV(Lifetime Value, 고객 생애 가치)는 고객 생애주기와 밀접하게 관련되어 있지만, 두 개념은 동일하지 않다.LTV(고객 생애 가치): 한 명의 고객이 기업과 관계를 맺는 동안 발생시키는 총수익을 정량적으로 평가한 지표입니다. 이는 고객이 기업에 기여하는 경제적 가치를 측정하며, 고객의 평균 구매 금액, 구매 빈도, 관계 유지 기간 등을 기반으로 계산됩니다.고객 생애주기: 고객이 기업과 관계를 맺는 기간 동안의 모든 단계를 의미합니다. 예를 들어, 고객이 처음 브랜드를 접하고, 구매하고, 재구매하거나 이탈하기까지의 과정을 포함합니다.따라서, LTV는 고객 생애주기 동안 발생하는 수익을 수치화한 결과로 볼 수 있다. 즉, LTV는 고객 생애주기를 기반으로 산출되는 경제적 지표라고 할 수 있다..

클라우드 Superset 시각화

1. 실험 설계1-1. 샘플 수 및 비율 확인import pandas as pd import seaborn as sns import matplotlib.pyplot as plt df = pd.read_csv('final_cookie_cats_for_superset_02.csv') # 버전별 샘플 수 시각화 sns.countplot(x='version', data=df) plt.title('Version별 샘플 수') plt.show() # 비율 출력 print(df['version'].value_counts(normalize=True))1-2. 가설 설정 및 t-test 수행 (예: retention_1 기준)from scipy.stats import ttest_ind # retention_1: True..

Superset 설치

먼저 Superset이 뭔지 왜 사용하는지 설명합니다. 설치부터 보실분은 아래 구분선 부터 보시면 됩니다.Superset(슈퍼셋)의 정의 및 특징:주요 특징 및 장점:오픈소스 & 무료누구나 자유롭게 사용 가능하고 커스터마이징도 자유로움.다양한 데이터베이스 지원MySQL, PostgreSQL, BigQuery, SQLite, Hive 등 대부분의 데이터베이스 연결 가능.풍부한 시각화 기능바 차트, 라인 차트, 히트맵, 산점도, 지도 시각화 등 다양한 시각화 유형 지원.인터랙티브 대시보드대시보드를 통해 여러 데이터를 동적으로 상호작용하며 분석 가능.빠른 분석 및 협업 용이성SQL 에디터 내장, 직관적인 인터페이스로 데이터 분석 속도가 빠르고, 팀 협업도 편리.확장성과 사용자 지정 기능사용자의 필요에 맞게..

보고서 vs 대시보드

목적과 활용보고서: 특정 이슈나 분석 결과를 상세히 서술하고 설명하는 문서 형태의 자료.대시보드: 핵심 정보를 빠르고 직관적으로 파악할 수 있도록 시각적으로 요약한 자료.정보의 표현 방식보고서: 주로 텍스트, 표, 그래프를 활용해 설명적이고 상세한 내용 전달.대시보드: 주로 그래프, 차트, 숫자 카드 등으로 시각화하여 직관적이고 즉각적인 이해 가능.정보의 양과 깊이보고서: 정보의 양이 많고 상세한 분석, 근거, 해석 등 깊이 있는 내용을 포함.대시보드: 정보가 압축적이고 핵심적이며, 한눈에 보이도록 최소한의 필수 정보만 표현.업데이트 주기 및 시간적 특성보고서: 주로 주간, 월간, 분기, 연간 등 주기적으로 작성하며 과거 데이터 중심.대시보드: 실시간 또는 매우 짧은 주기로 자동 업데이트 가능하며 현재 ..

Main Quest06_Project_Tableau 태블로 시각화 6-6

태블로 에서 최종 인터랙티브 한 동적효과 구현한 최종 결과물주간 Trend_주문수의 해당 주를 선택하면 나머지 지수와 그래프는 이에 맞게 실시간 변형됨Los Angeles CA지점을 선택하면 해당 지점의 정보와 오른쪽 센터위치의 날씨가 실시간 표시된다.Clear sky 맑은하늘물류센터를 다른쪽 선택시 오른쪽 센터위치 날씨가 실시간 바뀐다  overcast clouds : 흐린 구름아래는 로스엔젤레스 센터에서 Port Authority of New Youk센터까지의 물류이동시간과 경로가 나온다.물론 항공운송일때는 5시간10분차로 이동시에는 41시간 이다. 물류의 배송의 시급성에 따라 운송수단을 선택할 수 있다.물류센터 현황MQ06_C3_Project Lesson Learn  빅쿼리 작업연동하여 실시간 서비..

Main Quest06_Project_Tableau 태블로 시각화 6-5

기본 계산 필드1. 배송 지연 여부 (숫자 플래그)IF [delivery_status] = "지연" THEN 1 ELSE 0 END용도: 지연률 계산, 지연 수량 집계2. 날씨별 지연률SUM(IF [delivery_status] = "지연" THEN 1 ELSE 0 END)/ COUNT([order_item_id])용도: 날씨 조건별 지연률 분석3. 비 또는 눈일 때 배송 상태IF [condition] IN ("Rain", "Snow") THEN [delivery_status] ELSE NULL END용도: 궂은 날씨일 때의 배송 결과만 필터링4. 날씨 + 배송상태 조합 필드[condition] + " | " + [delivery_status]용도: 교차표, 트리맵, 바 차트용 카테고리 생성예시:"Rai..

Main Quest06_Project_Tableau 태블로 시각화 6-4

태블로에서 필요한 v_logistics_dashboard_4.csv 파일을 생성 후1. 대시보드 목적 정의목표: 배송 효율성과 고객 만족을 극대화하기 위해 주요 물류 KPI를 실시간으로 모니터링하고, 지역별/센터별 문제를 빠르게 식별2. 주요 KPI 지표 선정핵심 성과 지표(KPI):총 주문 수 (total_orders)지연 주문 수 (delayed_orders)반품 주문 수 (returned_orders)지연율 (delay_rate)반품율 (return_rate)정시배송률 (on_time_rate)SPI (Service Performance Index, spi_score)평균 배송일 (delivery_days)3. SPI 구상SPI 정의 예시 (데이터에 포함된 지수 기반):→ 이미 계산된 spi_sco..

Main Quest06_Project_Tableau 태블로 시각화 6-3

태블로용 예측결과 데이터 생성현재 머신러닝 예측 중 One-Hot Encoding으로 인해 메모리 초과(MemoryError)가 발생이유는 state, name 같은 범주형 변수가 너무 많은 고유 값을 가져서 수천 개의 열로 확장되었기 때문.해결 방안범주형 변수는 Label Encoding으로 바꾸고, 나머지는 그대로 유지하여 메모리를 줄임. 다시 예측 파일을 생성. ​​여전히 메모리 초과가 발생. 데이터 양이 많아서 모델 전체 학습에 부담이 가는 상황. 이를 해결하기 위해:해결 전략데이터의 일부만 샘플링하여 모델을 학습하고 예측.샘플 데이터(예: 10,000건)를 사용하면 빠르게 예측 가능, 태블로 테스트용으로도 충분.  ​​지속적인 메모리 초과로 인해 학습 및 저장이 어려운 상황!해결 방안 요약 (태..

Main Quest06_Project_Tableau 태블로 시각화 6-2

1. 운영팀: Sales 분석 대시보드목적: 일별/월별 매출, 주문/반품 현황, 전체 비즈니스 흐름 파악주요 분석 내용• 전체 매출 및 순매출 (반품 제외)• 주문 수, 반품 수, 반품률• 일/주/월별 매출 트렌드• 사용자당 평균 주문 수 & 평균 매출 (AOV)• 성별/연령대별 매출 분포필요한 테이블 및 컬럼• orders.csv• order_id, user_id, status, created_at, returned_at, delivered_at, num_of_item• order_items.csv• order_id, inventory_item_id, returned_at, status• inventory_items.csv• cost, product_retail_price• users.csv• age,..

Main Quest06_Project_Tableau 태블로 시각화 6-1

피그마 링크 (암호: aiffel) https://www.figma.com/design/kr6NrmqIG8QTAdVHSYTt6c/Untitled?node-id=0-1&t=iWyFTulKIA4HY72R-1 코랩 링크공동작업을 위해서는 구글빅쿼리로 작업을 진행하고 데이터마트를 만들어서 서로 공유장점 : 공동작업과 중간에 업데이트는 쿼리코드만 공유하면 쉽게 데이터나 뷰가 생성된다.     - 주의 : 사전에 이런정보를 공유하지 않으면 개인의 쿼리코드작업후 저장안된건 공유불가능 빅쿼리는 저장안한 코드는 삭제됨.         보안책 : 이럴경우 빅쿼리에서 본인이 업데이트한 뷰나 테이블을 CSV로 저장(빅쿼리 에서 저장할 수 있음) 한 후 공유하면됨이때 아래 처럼 빅쿼리 공유를 구글이메일로 권한을 줘야 액세스 거..

태블로 시각화 프로젝트 예시

태블로에서 1순위기준 잼있는거 2순위 인터랙티브하고 동적인 대시보드 구현에 최적화된 데이터 목적 : 실제로 여행을 간다는가정하에 필요한 항목이나 정보를 시각화(태블로 시각화) Airbnb Open Data (이탈리아 피렌체) 대시보드 구조시계열, 지리적, 가격 기반 분석을 포함한 인터랙티브한 대시보드 구현이 가능. 단, 속도와 데이터 정제 측면에서 사전 전처리와 설계가 중요 전처리 난이도 순위1 listings.csv 컬럼 수가 매우 많고 결측치 비율도 높음. 숙소 설명, 편의시설 등 텍스트와 다중값 처리 필요.2calendar.csv날짜별 가격과 예약 가능 여부 포함. 결측치는 중간 정도지만, 날짜 기준 병합 및 처리 필요.3reviews.csv결측치는 거의 없지만, 텍스트 리뷰 전처리 필요. 감성 ..

데이터 시각화-Tableau(태블로) 대시보드

Tableau 대시보드는 데이터를 시각화하고 분석할 수 있는 강력한 도구로, 사용자에게 다양한 데이터 소스를 통합하여 중요한 정보를 한 화면에 제공하는 기능을 제공합니다.대시보드의 주요 특징다양한 시각화 통합:대시보드는 여러 워크시트(차트, 그래프, 맵 등)를 하나의 화면에 결합하여 다양한 관점을 한눈에 볼 수 있게 합니다.여러 데이터 소스에서 가져온 정보를 하나의 대시보드에서 통합적으로 분석 가능.인터랙티브 기능:필터, 하이라이트, 액션을 추가하여 사용자가 데이터를 동적으로 탐색할 수 있습니다.특정 데이터 포인트를 클릭하면 관련된 다른 시각화가 업데이트되거나 상세 정보를 표시하는 드릴다운 기능을 제공합니다.실시간 데이터 업데이트:연결된 데이터 소스가 변경되면 대시보드가 실시간으로 업데이트되어 최신 데이..

데이터 시각화

[출처 : 구글데이터 애널리틱스 강의중]데이터 시각화를 계획하는 단계데이터 애널리스트가 이해관계자와 공유하기 위해 데이터 시각화를 만들어야 하는 실제 상황을 예로 들어 보겠습니다. 여러분이 의류 유통업체의 데이터 애널리스트라고 가정해 보겠습니다. 이 회사는 소규모 의류 매장의 재고 관리를 지원하며 매출이 호황을 누리고 있습니다. 어느 날, 회사에서 웹사이트를 대대적으로 업데이트할 준비를 하고 있다는 소식을 듣게 됩니다. 웹사이트 업데이트에 대한 결정을 내리기 위해 기존 웹사이트의 데이터와 판매 레코드를 분석하라는 요청을 받습니다. 수행할 수 있는 단계1단계: 데이터에서 패턴 탐색하기먼저 관리자나 데이터 소유자에게 현재 판매 레코드 및 웹사이트 애널리틱스 보고서에 대한 액세스 권한을 요청합니다. 여기에는 ..

데이터 시각화의 주요 단계

데이터 시각화는 여러 단계를 거쳐 이루어지는데, 크게 세 가지 주요 단계로 나눌 수 있다.1단계: 데이터 탐색 및 패턴 파악: 가장 먼저 할 일은 데이터를 자세히 살펴보고 숨겨진 패턴이나 특징을 찾아내는 것. 마치 탐정이 단서를 찾는 것처럼 데이터 속에 숨겨진 의미를 발掘하는 단계. 2단계: 시각화 계획: 어떤 종류의 그래프나 차트가 데이터를 가장 효과적으로 보여줄 수 있을지 결정하는 단계. 데이터의 특징과 분석 목표에 따라 적절한 시각화 도구를 선택해야 한다. 3단계: 시각화 생성 및 개선: 선택한 시각화 도구를 사용하여 실제로 그래프나 차트를 만들고, 필요에 따라 색상, 레이블, 범례 등을 수정하여 가독성을 높이는 단계. 이 단계들을 거치면서 데이터를 효과적으로 전달하고 이해를 돕는 시각화를 만들 수..

violinplot

Violin Plot(바이올린 플롯) 설명1. Violin Plot 개념Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.2. Violin Plot의 특징밀도 곡선(KDE, Kernel Density Estimation)데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다...

전설의 포켓몬 찾아 삼만리

이번에는 pandas의 문법과 다양한 메서드를 활용해 본 적이 있고, 코드를 보면 어느 정도 이해할 수 있습니다.matplotlib을 활용해서 데이터 시각화를 해본 적이 있고, 코드를 보면 어느 정도 이해할 수 있습니다.데이터셋을 train/test 데이터셋으로 나누어서 모델을 학습 및 검증해본 경험이 있다.목표다양한 피처가 있는 데이터셋을 밑바닥부터 샅샅이 뜯어보고, 전설의 포켓몬을 분류하기 위한 피처에는 무엇이 있는지 생각해 보자.모델 학습을 시작하기 전 모든 컬럼에 대해 그래프 시각화, 피벗 테이블 등을 활용하며 다양한 방법으로 충분한 EDA를 진행하자.모델 학습에 넣기 위해서 전처리가 필요한 범주형/문자열 데이터에 대한 전처리를 원-핫 인코딩 등으로 적절하게 진행.전체 데이터셋을 train/tes..

300x250
SMALL