300x250

데이터 분석가:Applied Data Analytics 189

데이터 마이닝 개념과 기법 4/e

데이터 마이닝 개념과 기법종합적인 학문 및 기술 분야로서 데이터 마이닝의 특징을 소개하며, 정보 기술의 진화와 데이터 마이닝의 필요성, 그리고 응용 분야의 중요성에 대해 설명한다. 먼저, 데이터 마이닝을 위한 다양한 유형의 데이터 타입에 대해 알아보고, 데이터 마이닝 작업의 주요 유형과 마이닝 지식의 종류, 사용되는 기술의 종류, 그리고 분석 환경에 따라 활용되는 다양한 기법에 대해 설명한다.저자Jiawei Han, Pei Jian, Hanghang Tong출판에이콘출판출판일2025.01.311. AARRR (Acquisition, Activation, Retention, Revenue, Referral)
AARRR은 데이터 분석을 통해 사용자 행동을 추적하고 개선하는 데 초점이 맞춰져 있습니다. 이에 ..

Carrying Capacity(CC)

내용 출처 : https://www.youtube.com/watch?v=tcrr2QiXt9M&list=PL1DJtS1Hv1Piv_MQIHgA_CdNsXyDM9UDM&index=1CC 계산 공식:CC = 신규 유입 사용자 수(Inflow) / 이탈률(Churn Rate)예시:일일 신규 유입 사용자 수: 7,500명일일 이탈률: 1% (0.01)이 경우:CC = 7,500 / 0.01 = 750,000명즉, 이 서비스는 장기적으로 약 75만 명의 활성 사용자를 유지할 수 있습니다.중요 포인트:Inflow: 광고나 마케팅 없이 자연스럽게 유입되는 사용자 수를 의미하며, 서비스 출시 후 약 1주일 내에 파악할 수 있습니다.​다_네의 빈칸채우기+1Brunch Story+1그래서 Carrying Capacity 란..

『100가지 비즈니스 모델 요약 정리』

출처 : FourWeekMBA 기반  https://fourweekmba.com/ 1. 개요다양한 산업과 유형에 적용할 수 있는 100가지 비즈니스 모델을 간결하게 정리한 자료로, 창업가, 스타트업, 경영 기획자들이 비즈니스 설계 시 참고할 수 있도록 구성됨.2. 핵심 비즈니스 모델 유형 요약 (카테고리별 정리)플랫폼/네트워크 기반양면시장(B2B2C): 공급자와 수요자를 동시에 연결 (ex. Uber, Airbnb)멀티사이드 플랫폼: 여러 집단을 동시에 지원하며 상호작용을 촉진 (ex. App Store)마켓플레이스: 제품/서비스를 중개 (ex. Amazon Marketplace)제품 중심프리미엄(Premium) 모델: 고급 기능/서비스로 고가에 판매 (ex. Apple)프리미엄에서 수익(Freemium..

된다! 최반장의 실무 엑셀 with 피벗 테이블

세미나도 진행해주셔서 무료로 들었습니다.여기 참고하세요https://event-us.kr/kdevcon/event그럼 이세미나하신분이 책도 내셨어요된다! 최반장의 실무 엑셀 with 피벗 테이블은 단순히 엑셀 기능을 배우는 책이 아니라, 실무에서 데이터를 다루는 데 필요한 핵심 기술과 저자의 진심 어린 노하우를 담은 작품입니다.이 책은 엉망으로 저장된 데이터를 정리하고, 피벗 테이블을 활용해 데이터를 분석하며, 설득력 있는 보고서와 대시보드로 완성하는 과정을 친절하게 안내합니다. 특히, 저자가 직접 제작한 88개의 무료 동영상 강의와 QR코드를 통해 학습 효과를 극대화할 수 있어 독자와 소통하려는 마음이 느껴집니다.저자 최재완(최반장)은 12년간 실무 경험을 바탕으로 팀원들에게 엑셀을 가르쳤던 마음을 책..

Superset 클라우드 시각화 2nd

태블로에 스토리 기능이 클라우드 슈퍼셋에도 구현이 되네요. 오히려 메뉴식으로 되어있어 더 깔끔한듯 합니다. 기능은 맨밑에 내용입니다. 클라우드 Superset 시각화 사용 후기프로그램자체가 너무 가볍네요. 협업툴로도 손색이 없고 단 클라우드 슈퍼셋은 유료입니다. 무료로는 14일 무료로 사용가능해요.차트에서 바차트나 파이차트 선택하고 Dimensions, Metric, 필요하면 Filters 에 컬럼입력하면 바로 파이차트가 됩니다.위에 창은 필터 구현은 안한거라 최소 필터 종류에 따라 3 x 4 (물론 필터에 입력한 컬럼의 내용수에 따라 정해집니다.)총 12가지 필터 수치에 의한 파이차트가 표현가능 합니다.아래처럼 레이아웃을 설정하여 메뉴처럼 넘어갈수도 있네요. 이기능은 정말 좋은것 같습니다. 아래는 A..

Superset 클라우드 시각화 1st

5. Superset 대시보드 구성 예시 (이 데이터 기반)차트 제목차트 유형필터버전별 Retention 비교Bar ChartGroup by: version유저당 평균 게임 횟수KPI 또는 Box Plot전체활동 시간대별 평균 게임 횟수Bar ChartGroup by: activity_time유료 사용자 전환율KPI (Big Number)필터 없음ARPU (사용자당 수익)KPI필터 없음 특히 제가 준비한 CSV 데이터에는 referrer, channel, signup_date 같은 유입(Acquisition) 관련 정보가 없기 때문에 AARRR의 시작점인 "획득(Acquisition)"을 분석하기엔 정보가 부족함.반대로 사용자 유지와 활성화, 수익 기여도 분석에는 매우 적합한 구조라서 RARRA 분석이 ..

AARRR vs RARRA

두 개념 모두 사용자 여정(User Journey)에 기반하고 있지만, 집중하는 관점이 다름1. AARRR 프레임워크1.1. 사용 분야스타트업 성장 전략제품 초기 단계에서의 사용자 분석퍼널 분석(Funnel Analysis)그로스해킹(Growth Hacking)1.2. 구성 단계 (5단계)AARRR은 다음과 같은 순서로 구성됩니다.Acquisition (획득)사용자가 어떻게 서비스를 알게 되었는가예: 광고 클릭, 검색 유입, SNS 유입Activation (활성화)사용자가 첫 긍정적 경험을 했는가예: 회원가입 후 첫 사용, 첫 클릭, 튜토리얼 완료Retention (유지)사용자가 지속적으로 재방문/재사용 하는가예: 1주일 후에도 재방문, 푸시 알림 클릭Referral (추천)사용자가 다른 사람에게 서비스..

클라우드 Superset 시각화

1. 실험 설계1-1. 샘플 수 및 비율 확인import pandas as pd import seaborn as sns import matplotlib.pyplot as plt df = pd.read_csv('final_cookie_cats_for_superset_02.csv') # 버전별 샘플 수 시각화 sns.countplot(x='version', data=df) plt.title('Version별 샘플 수') plt.show() # 비율 출력 print(df['version'].value_counts(normalize=True))1-2. 가설 설정 및 t-test 수행 (예: retention_1 기준)from scipy.stats import ttest_ind # retention_1: True..

클라우드 Superset

Superset 클라우드 호스팅 서비스Preset.io: Superset을 만든 회사에서 운영하는 공식 상업용 SaaS사용자는 설치 없이 계정만 만들고 바로 협업 가능무료 플랜 제공 (기능 제한 있음)클라우드에서 Superset을 설치하면 협업에 최적화된 분석 환경 구성 가능Ubuntu 서버에 Superset을 설치해 공인 IP나 도메인을 통해 운영AWS EC2, Oracle Cloud, GCP 등이 설치 플랫폼으로 적합Nginx + HTTPS + 계정관리까지 구성하면 완전한 프로덕션 환경 가능Preset.io 계정 생성 및 사용법 Preset.io 계정 생성 및 사용법 가입한 후 한사람이 이메일 초대를 하면 서로 만날수 있다서로의 작업공간을 만들수 있다.Preset.io를 활용한 Superset 대시보..

Superset 설치

먼저 Superset이 뭔지 왜 사용하는지 설명합니다. 설치부터 보실분은 아래 구분선 부터 보시면 됩니다.Superset(슈퍼셋)의 정의 및 특징:주요 특징 및 장점:오픈소스 & 무료누구나 자유롭게 사용 가능하고 커스터마이징도 자유로움.다양한 데이터베이스 지원MySQL, PostgreSQL, BigQuery, SQLite, Hive 등 대부분의 데이터베이스 연결 가능.풍부한 시각화 기능바 차트, 라인 차트, 히트맵, 산점도, 지도 시각화 등 다양한 시각화 유형 지원.인터랙티브 대시보드대시보드를 통해 여러 데이터를 동적으로 상호작용하며 분석 가능.빠른 분석 및 협업 용이성SQL 에디터 내장, 직관적인 인터페이스로 데이터 분석 속도가 빠르고, 팀 협업도 편리.확장성과 사용자 지정 기능사용자의 필요에 맞게..

Power BI

Step 1: 기초 개념과 인터페이스 익숙해지기 (1~2일)핵심 목표: Power BI의 기본 개념, 인터페이스, 태블로와의 유사점 및 차이점 이해추천 강의 및 자료:유튜브 무료 강의:Microsoft 공식 채널 - Power BI 시작하기송윤희의 Power BI 기초 강의 (무료, 한국어)기초 블로그 글:Power BI 기초 완벽 정리 (마이크로소프트 공식 문서)Step 2: 데이터 가져오기 및 전처리 익히기 (2~3일)핵심 목표: 다양한 데이터 소스를 연결하여 데이터를 불러오고 간단한 데이터 클리닝, 변환 배우기추천 방법:Power Query 배우기 (태블로의 Data Source 탭과 비슷한 기능)Excel 데이터, CSV 파일 연결 → 데이터 유형 변경, 결측치 처리, 열 추가, 병합 등추천 강의..

보고서 vs 대시보드

목적과 활용보고서: 특정 이슈나 분석 결과를 상세히 서술하고 설명하는 문서 형태의 자료.대시보드: 핵심 정보를 빠르고 직관적으로 파악할 수 있도록 시각적으로 요약한 자료.정보의 표현 방식보고서: 주로 텍스트, 표, 그래프를 활용해 설명적이고 상세한 내용 전달.대시보드: 주로 그래프, 차트, 숫자 카드 등으로 시각화하여 직관적이고 즉각적인 이해 가능.정보의 양과 깊이보고서: 정보의 양이 많고 상세한 분석, 근거, 해석 등 깊이 있는 내용을 포함.대시보드: 정보가 압축적이고 핵심적이며, 한눈에 보이도록 최소한의 필수 정보만 표현.업데이트 주기 및 시간적 특성보고서: 주로 주간, 월간, 분기, 연간 등 주기적으로 작성하며 과거 데이터 중심.대시보드: 실시간 또는 매우 짧은 주기로 자동 업데이트 가능하며 현재 ..

데이터 분석가의 숫자유감

데이터 분석가의 숫자유감대부분의 데이터분석관련책이 일본사람이 쓴도서가 많다. 그것도 약 10년전 그만큼 일본은 생산성과 데이터의 과거 기술은 무시할수 없다.그중에서 한국인이 쓴 책중에 가장 읽기 편하고 쉬운 책이 아닌가 생각된다.최근에는 책표지가 바꼈다. 책표지만 보고 우습게보면 안된다. 이책은 쉽게 읽을수있으면서 깊은 내용을 담고 있어 데이터분석가를 목표로 한다면 꼭 읽어 볼것을 권합니다.많은 내용이 들어있지는 안지만 시작하는 입장이라면 강추하는 책이 아닌가.책을 많이 읽어본 사람이라면 몇일내 일을수 있는 내용이라 무조건 읽거나 소장가치가 있는 책이라고 자부한다.난이도는 쉬운편이다.

Main Quest06_Project_Tableau 태블로 시각화 6-6

태블로 에서 최종 인터랙티브 한 동적효과 구현한 최종 결과물주간 Trend_주문수의 해당 주를 선택하면 나머지 지수와 그래프는 이에 맞게 실시간 변형됨Los Angeles CA지점을 선택하면 해당 지점의 정보와 오른쪽 센터위치의 날씨가 실시간 표시된다.Clear sky 맑은하늘물류센터를 다른쪽 선택시 오른쪽 센터위치 날씨가 실시간 바뀐다  overcast clouds : 흐린 구름아래는 로스엔젤레스 센터에서 Port Authority of New Youk센터까지의 물류이동시간과 경로가 나온다.물론 항공운송일때는 5시간10분차로 이동시에는 41시간 이다. 물류의 배송의 시급성에 따라 운송수단을 선택할 수 있다.물류센터 현황MQ06_C3_Project Lesson Learn  빅쿼리 작업연동하여 실시간 서비..

Main Quest06_Project_Tableau 태블로 시각화 6-5

기본 계산 필드1. 배송 지연 여부 (숫자 플래그)IF [delivery_status] = "지연" THEN 1 ELSE 0 END용도: 지연률 계산, 지연 수량 집계2. 날씨별 지연률SUM(IF [delivery_status] = "지연" THEN 1 ELSE 0 END)/ COUNT([order_item_id])용도: 날씨 조건별 지연률 분석3. 비 또는 눈일 때 배송 상태IF [condition] IN ("Rain", "Snow") THEN [delivery_status] ELSE NULL END용도: 궂은 날씨일 때의 배송 결과만 필터링4. 날씨 + 배송상태 조합 필드[condition] + " | " + [delivery_status]용도: 교차표, 트리맵, 바 차트용 카테고리 생성예시:"Rai..

Main Quest06_Project_Tableau 태블로 시각화 6-4

태블로에서 필요한 v_logistics_dashboard_4.csv 파일을 생성 후1. 대시보드 목적 정의목표: 배송 효율성과 고객 만족을 극대화하기 위해 주요 물류 KPI를 실시간으로 모니터링하고, 지역별/센터별 문제를 빠르게 식별2. 주요 KPI 지표 선정핵심 성과 지표(KPI):총 주문 수 (total_orders)지연 주문 수 (delayed_orders)반품 주문 수 (returned_orders)지연율 (delay_rate)반품율 (return_rate)정시배송률 (on_time_rate)SPI (Service Performance Index, spi_score)평균 배송일 (delivery_days)3. SPI 구상SPI 정의 예시 (데이터에 포함된 지수 기반):→ 이미 계산된 spi_sco..

Main Quest06_Project_Tableau 태블로 시각화 6-3

태블로용 예측결과 데이터 생성현재 머신러닝 예측 중 One-Hot Encoding으로 인해 메모리 초과(MemoryError)가 발생이유는 state, name 같은 범주형 변수가 너무 많은 고유 값을 가져서 수천 개의 열로 확장되었기 때문.해결 방안범주형 변수는 Label Encoding으로 바꾸고, 나머지는 그대로 유지하여 메모리를 줄임. 다시 예측 파일을 생성. ​​여전히 메모리 초과가 발생. 데이터 양이 많아서 모델 전체 학습에 부담이 가는 상황. 이를 해결하기 위해:해결 전략데이터의 일부만 샘플링하여 모델을 학습하고 예측.샘플 데이터(예: 10,000건)를 사용하면 빠르게 예측 가능, 태블로 테스트용으로도 충분.  ​​지속적인 메모리 초과로 인해 학습 및 저장이 어려운 상황!해결 방안 요약 (태..

Main Quest06_Project_Tableau 태블로 시각화 6-2

1. 운영팀: Sales 분석 대시보드목적: 일별/월별 매출, 주문/반품 현황, 전체 비즈니스 흐름 파악주요 분석 내용• 전체 매출 및 순매출 (반품 제외)• 주문 수, 반품 수, 반품률• 일/주/월별 매출 트렌드• 사용자당 평균 주문 수 & 평균 매출 (AOV)• 성별/연령대별 매출 분포필요한 테이블 및 컬럼• orders.csv• order_id, user_id, status, created_at, returned_at, delivered_at, num_of_item• order_items.csv• order_id, inventory_item_id, returned_at, status• inventory_items.csv• cost, product_retail_price• users.csv• age,..

Main Quest06_Project_Tableau 태블로 시각화 6-1

피그마 링크 (암호: aiffel) https://www.figma.com/design/kr6NrmqIG8QTAdVHSYTt6c/Untitled?node-id=0-1&t=iWyFTulKIA4HY72R-1 코랩 링크공동작업을 위해서는 구글빅쿼리로 작업을 진행하고 데이터마트를 만들어서 서로 공유장점 : 공동작업과 중간에 업데이트는 쿼리코드만 공유하면 쉽게 데이터나 뷰가 생성된다.     - 주의 : 사전에 이런정보를 공유하지 않으면 개인의 쿼리코드작업후 저장안된건 공유불가능 빅쿼리는 저장안한 코드는 삭제됨.         보안책 : 이럴경우 빅쿼리에서 본인이 업데이트한 뷰나 테이블을 CSV로 저장(빅쿼리 에서 저장할 수 있음) 한 후 공유하면됨이때 아래 처럼 빅쿼리 공유를 구글이메일로 권한을 줘야 액세스 거..

비즈니스의 정성적 및 정량적 데이터

정성적 데이터와 정량적 데이터의 의미에 대해 자세히 설명합니다.지금까지 데이터에는 정성적 데이터와 정량적 데이터의 두 가지 유형이 있습니다. 이제 데이터 유형과 데이터 수집 도구에 대해 자세히 살펴보겠습니다. 이 시나리오에서 여러분은 영화관 체인의 데이터 애널리스트입니다. 관리자는 다음과 같은 추세를 추적하기를 원합니다:시간대별 영화 관람객 수매점의 수익성저녁 시간대 관객 선호도이 세 가지 추세를 모두 모니터링할 수 있는 정량적 데이터가 이미 존재한다고 가정합니다.시간 경과에 따른 영화 관람객 수극장이 로열티 및 보상 프로그램을 통해 보유하고 있는 과거 데이터부터 시작하여 해당 데이터에서 어떤 인사이트를 얻을 수 있는지 조사하는 것이 첫 번째 단계입니다. 지난 3개월 동안의 출석률을 살펴봅니다. 하지만 ..

SMALL