300x250

분류 전체보기 320

Main Quest06_Project_Tableau 태블로 시각화 6-4

태블로에서 필요한 v_logistics_dashboard_4.csv 파일을 생성 후1. 대시보드 목적 정의목표: 배송 효율성과 고객 만족을 극대화하기 위해 주요 물류 KPI를 실시간으로 모니터링하고, 지역별/센터별 문제를 빠르게 식별2. 주요 KPI 지표 선정핵심 성과 지표(KPI):총 주문 수 (total_orders)지연 주문 수 (delayed_orders)반품 주문 수 (returned_orders)지연율 (delay_rate)반품율 (return_rate)정시배송률 (on_time_rate)SPI (Service Performance Index, spi_score)평균 배송일 (delivery_days)3. SPI 구상SPI 정의 예시 (데이터에 포함된 지수 기반):→ 이미 계산된 spi_sco..

Main Quest06_Project_Tableau 태블로 시각화 6-3

태블로용 예측결과 데이터 생성현재 머신러닝 예측 중 One-Hot Encoding으로 인해 메모리 초과(MemoryError)가 발생이유는 state, name 같은 범주형 변수가 너무 많은 고유 값을 가져서 수천 개의 열로 확장되었기 때문.해결 방안범주형 변수는 Label Encoding으로 바꾸고, 나머지는 그대로 유지하여 메모리를 줄임. 다시 예측 파일을 생성. ​​여전히 메모리 초과가 발생. 데이터 양이 많아서 모델 전체 학습에 부담이 가는 상황. 이를 해결하기 위해:해결 전략데이터의 일부만 샘플링하여 모델을 학습하고 예측.샘플 데이터(예: 10,000건)를 사용하면 빠르게 예측 가능, 태블로 테스트용으로도 충분.  ​​지속적인 메모리 초과로 인해 학습 및 저장이 어려운 상황!해결 방안 요약 (태..

Main Quest06_Project_Tableau 태블로 시각화 6-2

1. 운영팀: Sales 분석 대시보드목적: 일별/월별 매출, 주문/반품 현황, 전체 비즈니스 흐름 파악주요 분석 내용• 전체 매출 및 순매출 (반품 제외)• 주문 수, 반품 수, 반품률• 일/주/월별 매출 트렌드• 사용자당 평균 주문 수 & 평균 매출 (AOV)• 성별/연령대별 매출 분포필요한 테이블 및 컬럼• orders.csv• order_id, user_id, status, created_at, returned_at, delivered_at, num_of_item• order_items.csv• order_id, inventory_item_id, returned_at, status• inventory_items.csv• cost, product_retail_price• users.csv• age,..

Main Quest06_Project_Tableau 태블로 시각화 6-1

피그마 링크 (암호: aiffel) https://www.figma.com/design/kr6NrmqIG8QTAdVHSYTt6c/Untitled?node-id=0-1&t=iWyFTulKIA4HY72R-1 코랩 링크공동작업을 위해서는 구글빅쿼리로 작업을 진행하고 데이터마트를 만들어서 서로 공유장점 : 공동작업과 중간에 업데이트는 쿼리코드만 공유하면 쉽게 데이터나 뷰가 생성된다.     - 주의 : 사전에 이런정보를 공유하지 않으면 개인의 쿼리코드작업후 저장안된건 공유불가능 빅쿼리는 저장안한 코드는 삭제됨.         보안책 : 이럴경우 빅쿼리에서 본인이 업데이트한 뷰나 테이블을 CSV로 저장(빅쿼리 에서 저장할 수 있음) 한 후 공유하면됨이때 아래 처럼 빅쿼리 공유를 구글이메일로 권한을 줘야 액세스 거..

비즈니스의 정성적 및 정량적 데이터

정성적 데이터와 정량적 데이터의 의미에 대해 자세히 설명합니다.지금까지 데이터에는 정성적 데이터와 정량적 데이터의 두 가지 유형이 있습니다. 이제 데이터 유형과 데이터 수집 도구에 대해 자세히 살펴보겠습니다. 이 시나리오에서 여러분은 영화관 체인의 데이터 애널리스트입니다. 관리자는 다음과 같은 추세를 추적하기를 원합니다:시간대별 영화 관람객 수매점의 수익성저녁 시간대 관객 선호도이 세 가지 추세를 모두 모니터링할 수 있는 정량적 데이터가 이미 존재한다고 가정합니다.시간 경과에 따른 영화 관람객 수극장이 로열티 및 보상 프로그램을 통해 보유하고 있는 과거 데이터부터 시작하여 해당 데이터에서 어떤 인사이트를 얻을 수 있는지 조사하는 것이 첫 번째 단계입니다. 지난 3개월 동안의 출석률을 살펴봅니다. 하지만 ..

Power BI 란?

엑셀+태블로+SQL의 조합 같은 마이크로소프트의 데이터 시각화/분석 도구Power BI 핵심 기능 (쉽게 설명)데이터 불러오기 (Power Query)엑셀처럼 다양한 파일, DB, 웹에서 데이터를 가져옴"변환"과 "정리"를 GUI로 쉽게 할 수 있음 (태블로의 데이터 페인+준비단계 기능과 비슷)데이터 모델링 (DAX 사용)엑셀 수식처럼 생긴 DAX로 계산 열/측정값 작성관계형 데이터(여러 테이블)를 쉽게 연결해 분석 가능 (태블로보다 이 부분 강점)시각화 (비주얼)드래그 앤 드롭으로 차트 생성 (태블로와 매우 비슷)슬라이서, 필터, 드릴다운 기능 풍부리포트 공유 (Power BI Service)웹에서 보고서를 공유하거나 대시보드를 게시 가능태블로 퍼블릭, 서버, 클라우드 공유 방식과 유사하지만, MS 계..

데이터 분석가에게 적합한 직업을 찾는 방법

핵심 고려 사항은 다음과 같습니다.업종: 어떤 업종에 관심이 있으신가요? 각 업종마다 데이터를 사용하는 방식이 다릅니다.도구: 어떤 데이터 분석 도구에 익숙하신가요?위치 및 출장: 어디에서 일하고 싶으신가요? 출장은 괜찮으신가요?문화: 어떤 회사 문화에서 가장 잘 맞으신가요?이러한 요소들을 고려하여 자신에게 맞는 직업을 찾는 것이 중요합니다.가장 중요한 직업 선택 요소는 무엇인가요? 모든 요소들이 중요하지만 자신의 관심사가 가장 중요해요! 어떤 일을 할 때 즐겁고 보람을 느끼는지 생각해보세요. 데이터 분석 기술을 어떤 분야에 적용하고 싶은지 스스로에게 질문해 보는 것이죠. 예를 들어, 사람들이 건강해지는 데 기여하고 싶다면, 병원 입원율을 개선하는 데 데이터를 사용하는 직업을 고려할 수 있습니다.어떤 산..

공정성을 고려해야 된다.

공정한 분석을 지원하는 몇 가지 전략은 다음과 같습니다.분석을 지원하는 몇 가지 전략은 다음과 같습니다.모범 사례설명예사용 가능한 모든 데이터를 고려하세요데이터 분석가로서 당신의 업무 중 일부는 당신의 분석에 어떤 데이터가 유용할지 결정하는 것입니다. 종종 당신이 집중하는 것과 관련이 없거나 당신의 기대와 일치하지 않는 데이터가 있을 것입니다. 하지만 그냥 무시할 수는 없습니다. 당신의 분석이 당신의 기대만이 아니라 진실을 반영하도록 모든 사용 가능한 데이터를 고려하는 것이 중요합니다.한 주의 교통부는 휴일 교통 패턴을 측정하는 데 관심이 있습니다. 처음에는 교통량과 휴일이라는 사실과 관련된 지표만 포함합니다. 하지만 데이터 팀은 휴일 날씨가 교통량에 어떤 영향을 미칠 수 있는지 고려하지 못했다는 것을 ..

태블로 시각화 프로젝트 예시

태블로에서 1순위기준 잼있는거 2순위 인터랙티브하고 동적인 대시보드 구현에 최적화된 데이터 목적 : 실제로 여행을 간다는가정하에 필요한 항목이나 정보를 시각화(태블로 시각화) Airbnb Open Data (이탈리아 피렌체) 대시보드 구조시계열, 지리적, 가격 기반 분석을 포함한 인터랙티브한 대시보드 구현이 가능. 단, 속도와 데이터 정제 측면에서 사전 전처리와 설계가 중요 전처리 난이도 순위1 listings.csv 컬럼 수가 매우 많고 결측치 비율도 높음. 숙소 설명, 편의시설 등 텍스트와 다중값 처리 필요.2calendar.csv날짜별 가격과 예약 가능 여부 포함. 결측치는 중간 정도지만, 날짜 기준 병합 및 처리 필요.3reviews.csv결측치는 거의 없지만, 텍스트 리뷰 전처리 필요. 감성 ..

데이터 시각화-Tableau(태블로) 대시보드

Tableau 대시보드는 데이터를 시각화하고 분석할 수 있는 강력한 도구로, 사용자에게 다양한 데이터 소스를 통합하여 중요한 정보를 한 화면에 제공하는 기능을 제공합니다.대시보드의 주요 특징다양한 시각화 통합:대시보드는 여러 워크시트(차트, 그래프, 맵 등)를 하나의 화면에 결합하여 다양한 관점을 한눈에 볼 수 있게 합니다.여러 데이터 소스에서 가져온 정보를 하나의 대시보드에서 통합적으로 분석 가능.인터랙티브 기능:필터, 하이라이트, 액션을 추가하여 사용자가 데이터를 동적으로 탐색할 수 있습니다.특정 데이터 포인트를 클릭하면 관련된 다른 시각화가 업데이트되거나 상세 정보를 표시하는 드릴다운 기능을 제공합니다.실시간 데이터 업데이트:연결된 데이터 소스가 변경되면 대시보드가 실시간으로 업데이트되어 최신 데이..

빅분기필기-고급 분석기법

이것만은 알고가자~범주형 자료 분석분할표 분석: 데이터 간의 관계를 교차표로 나타냄.카이제곱 검정: 독립성 검정, 동질성 검정에 사용.피셔 정확 검정: 작은 표본에서 독립성 검정을 수행.로지스틱 회귀분석: 범주형 종속변수와 연속형 독립변수 간의 관계를 분석다변량 분석상관관계 분석: 피어슨 상관계수, 스피어만 상관계수 등.주성분분석(PCA): 차원 축소를 통해 데이터의 주요 패턴을 파악.다차원 척도법(MDS): 데이터 간의 유사성을 시각화시계열 분석데이터의 시간적 변화를 연구하며 정상성과 비정상성을 판단.ARIMA, SARIMA 모델을 사용하여 예측 수행베이지안 기법조건부 확률 및 베이즈 정리를 기반으로 한 확률적 모델링.불확실성이 높은 상황에서 의사결정을 지원비정형 데이터 분석텍스트, 이미지, 소셜 미디..

태블로 대시보드 작업 에이비앤비

태블로에서 만들기 좋은 인터랙티브 대시보드 와 함께, 각 시각화를 위해 필요한 데이터 병합 및 전처리 전략1. 숙소 요약 대시보드숙소 유형, 가격대, 지역별 분포를 한눈에 보여주는 기본 대시보드주요 시각화지역(Neighbourhood)별 숙소 수 및 평균 가격 지도숙소 유형(Room Type) 비율 파이차트가격대별 숙소 수 히스토그램숙소 수/평균 가격 트렌드 (Bar 또는 Line)사용 파일listings.csvneighbourhoods.csv 또는 neighbourhoods.geojson전처리 전략listings.csv에서 필요한 컬럼 추출:id, neighbourhood, room_type, price, number_of_reviews, availability_365price는 문자열($1,234) ..

ARPU, LTV란?

ARPU(Average Revenue Per User, 평균 가입자당 매출) 한 명의 사용자(고객)로부터 평균적으로 얼마의 수익을 얻는지를 나타내는 지표입니다. 데이터 분석이나 비즈니스 성과 분석에서 매우 자주 등장하는 핵심 지표입니다.1. 정의 (What)ARPU = 총 매출 / 사용자 수일정 기간(예: 월간, 분기, 연간) 동안 발생한 총 매출을같은 기간 동안의 **총 사용자 수(고객 수)**로 나눈 값입니다.2. 용도 (Why)ARPU는 다음을 파악할 때 사용됩니다:수익성 분석: 한 명의 고객이 얼마의 수익을 창출하는지 확인비즈니스 성과 비교: 기간별, 서비스별, 국가별 ARPU 비교전략 수립: 타깃 고객군 선정, 요금제 개선, 마케팅 전략 설계 등고객 가치 평가: LTV(Lifetime Value..

데이터분석의 개인적, 기술적 측면 이란?

개인적인 측면:소통과 협력: 분석 결과를 다른 사람들에게 이해하기 쉽게 전달하고, 그들의 의견을 경청하여 분석에 반영하는 데 중요한 역할을 합니다.공감 능력: 데이터 뒤에 숨겨진 사람들의 이야기와 문제 상황을 이해하는 데 도움을 주어, 더욱 효과적인 분석을 가능하게 합니다.예시 : 분석 결과를 이해하기 쉽게 설명하는 데이터 분석가: 복잡한 분석 결과를 이해하기 쉬운 용어와 시각 자료를 사용하여 마케팅 팀에 설명하고, 캠페인 개선 방안을 제시합니다. 이때 데이터 분석가는 마케팅 팀의 의견을 경청하고, 그들의 요구를 반영하여 분석 결과를 더욱 효과적으로 전달합니다.고객 만족도 향상을 위해 노력하는 데이터 과학자: 고객 설문 조사 데이터를 분석하여 고객 불만의 근본 원인을 파악하고, 고객 서비스 개선을 위한 ..

세상에서 가장 쉬운 통계학 입문

세상에서 가장 쉬운 통계학 입문 (난이도: ★☆☆☆☆)복잡한 공식과 기호를 사용하지 않고, 사칙연산과 제곱, 루트 등 중학교 기초수학만으로 통계학의 기초를 확실히 다질 수 있도록 돕는 입문서입니다.출판사 : 지상사지음 : 고지마 히로유키 / 박주영 옮김표준, 표준편차, 분산 으로 시작한 통계학 입문 도서 마지막 장에는 카이제곱분포와 함께 t분포에 대해서 나온다.이와 같이 정규분포라고 알고 있는 모집단에서 소수의 관측 데이터로 그 모집단의 평균값인 모평균 을 구간추정하는 방법을 얻을 수 있다. 또한 이것은 표본평균과 표본표준편차라는 제1부의 처음에서 도입한 데이터 특성을 알기 위한 기본적인 통계량만을 사용해 왔기 때문에 안심할 수 있을 것입니다. 이것이 이 책의 목표점이자 통계학 초급의 수료 지점이다. 라..

데이터 시각화

[출처 : 구글데이터 애널리틱스 강의중]데이터 시각화를 계획하는 단계데이터 애널리스트가 이해관계자와 공유하기 위해 데이터 시각화를 만들어야 하는 실제 상황을 예로 들어 보겠습니다. 여러분이 의류 유통업체의 데이터 애널리스트라고 가정해 보겠습니다. 이 회사는 소규모 의류 매장의 재고 관리를 지원하며 매출이 호황을 누리고 있습니다. 어느 날, 회사에서 웹사이트를 대대적으로 업데이트할 준비를 하고 있다는 소식을 듣게 됩니다. 웹사이트 업데이트에 대한 결정을 내리기 위해 기존 웹사이트의 데이터와 판매 레코드를 분석하라는 요청을 받습니다. 수행할 수 있는 단계1단계: 데이터에서 패턴 탐색하기먼저 관리자나 데이터 소유자에게 현재 판매 레코드 및 웹사이트 애널리틱스 보고서에 대한 액세스 권한을 요청합니다. 여기에는 ..

Git을 사용 파일 복제(clone) 하기

!git clone https://github.com/Ukbang/Streamlit.git 명령어는 Git을 사용하여 원격 저장소에 있는 프로젝트를 현재 Colab 환경으로 복제(clone)하는 역할을 합니다. !Colab 셀에서 !는 셸 명령어를 실행할 수 있도록 해줍니다. 즉, Python 코드가 아니라 터미널 명령어를 실행하는 것입니다.git clone이 명령은 Git 저장소를 복제하는 명령어입니다. 원격 저장소의 파일들과 폴더 구조를 그대로 로컬(Colab 환경)로 가져옵니다.예를 들어 https://github.com/sample/Streamlit.git복제할 GitHub 저장소의 URL입니다. 이 URL에 있는 저장소 전체가 복제됩니다.실행 결과, 현재 작업 디렉토리(일반적으로 /content..

데이터 시각화, 태블로

목적 추천 차트 유형구성 요소 비율/비교(범주형) 누적 막대 차트두 변수 간 관계(연속형) 분산형(산점도) 차트누적 막대 차트(Stacked Bar Chart)는 두 변수 간의 관계를 나타내는 데는 적합하지 않습니다.정확한 이해를 위해, 다음과 같이 기억하세요:1. 누적 막대 차트의 주된 용도전체 대비 각 구성 요소의 비율(상대적 비중)을 시각화하는 데 사용됩니다.시간이나 그룹에 따른 비율의 변화나 구성요소 간 비교를 확인하는 데 효과적입니다.2. 두 변수 간 관계를 표현하는 데는 부적합한 이유누적 막대 차트는 한 변수의 세부 구성을 보여줄 뿐, 두 연속형 변수의 상관관계나 경향성을 나타낼 수 없습니다.두 변수의 상관관계를 명확히 보여주는 데는 **산점도(분산형 차트)**가 가장 적합합니다.3. 두 변수..

데브콘 : 삼월엔 Excel & Power BI 자동화

사무자동화라고 많이 이야기 들으셨을겁니다. BI 로 가는 요즘 트랜드에 맞추어 신선하게 들은 강의가 있어 소개 합니다.구인도 모집한다고 하니 관심있으신 분들은 아래를 참고하시기 바랍니다. https://rhodusanalytics.com/boards/19791/posts/305665/view 위임K-DEVCON 공식 이메일이메일주소info@k-devcon.comK-DEVCON은 IT 전문가 커뮤니티 그룹으로 이번 행사에 참여를 했습니다.아래는 행사 참가관련 내용 입니다.일시03월 20일(목) 20:00 ~ 21:00구글캘린더에 추가하기신청03월 10일(월) 00:00 ~ 03월 20일(목) 21:00비용무료장소온라인으로 진행하는 행사입니다.스트리밍기타안녕하세요, K-DEVCON 입니다. 3월 밋업의 테마..

정보 2025.03.20

백링크(Backlink)란?

백링크는 다른 웹사이트에서 특정 웹사이트로 연결된 링크를 의미한다. 즉, 다른 사이트에서 내 웹사이트로 링크를 걸어주는 것.예를 들어, A 사이트가 B 사이트의 글을 인용하면서 링크를 걸었다면, B 사이트는 A 사이트로부터 백링크를 받은 것이 된다백링크가 중요한 이유백링크는 검색엔진 최적화(SEO)와 웹사이트의 신뢰도를 높이는 데 핵심적인 역할을 한다.검색 엔진 최적화(SEO) 향상구글과 같은 검색 엔진은 백링크를 "추천"으로 간주한다.신뢰할 만한 사이트에서 많은 백링크를 받을수록 해당 사이트의 권위가 높다고 판단하여 검색 순위가 올라간다.웹사이트 신뢰도(Authority) 증가백링크를 많이 받은 웹사이트는 검색엔진이 "유용하고 신뢰할 만한 정보"를 제공한다고 인식한다.특히, 공신력 있는 기관(예: 대학..

정보 2025.03.20
SMALL