데이터 분석가:Applied Data Analytics 217

혼자공부하는 SQL 한빛미디어

혼자공부하는 SQL한빛미디어  아래는 오탈자 내용입니다. (출처: 한빛미디어)확인중인 오탈자버전 : 종이책페이지 : 400등록일 : 2025-02-11유형 : 내용 오류/확인 요청위치 : 손코딩 소스 코드 번호 매핑400페이지Code8-8.py → Code8-7#5.py401페이지Code8-9.py → Code8-8.py402페이지Code8-10.py → Code8-9.py책을 수정하지 않고 소스코드의 파일명을 변경해도 됩니다.이상입니다. 확인중인 오탈자버전 : 종이책페이지 : 400등록일 : 2024-09-07유형 : 주요 기술 오류(로직/코드)위치 : 해당 페이지 손코딩 부분[해당 부분]위젯 사이에 여백 소스코드 Code8-8.py‘혼공SQL_예제 파일’에 교재의 ‘위젯 사이에 여백 추가’ 부분에 해..

주말 빅분기 공부 계획

기본 원칙(나만의 원칙이므로 개인별로 맞는 기준을 설정하시는게 좋습니다.) 참고만 하세요.집중력 높은 오전: 사고력과 기억력이 좋은 오전 시간에 학습량이 많은 과목(빅분기, GA 강의)을 배치연계 학습: 구글 애널리틱스 강의와 빅분기 관련 개념을 선후행으로 배치해 연관 학습 강화오후 블록 학습: 피로도를 고려해 독서 및 블로그 정리를 배치휴식 & 리프레시: 집중이 필요한 학습 후 가벼운 활동(산책, 짧은 휴식) 배치시간표시간활    동07:30 - 08:00기상 & 가벼운 스트레칭08:00 - 09:00아침 식사 & 휴식 (1시간)09:00 - 11:00빅분기 시험 공부 (이론 개념 정리 & 문제풀이)11:00 - 12:00구글 애널리틱스 강의 수강 (빅분기 관련 내용 연결 학습)12:00 - 13:00..

빅데이터분석기사 25일 시험공부 계획

스터디카페 (이기적스터디카페)https://cafe.naver.com/yjbooks?tc=shared_link(하루 평균 1시간 기준)[1~8일차] 핵심 개념 빠르게 정리하기 (중요 개념만)개념당 20분씩만 압축 정리, 매일 요약 노트 작성 필수1일차: 데이터 이해 및 활용 (60분)데이터 개념, 유형(20분)데이터 수집, 저장, 처리 기술(20분)데이터 품질 관리(20분)2일차: 데이터 분석 기획 (60분)분석 목표 수립(20분)분석 방법론(20분)분석 프로젝트 관리(20분)3일차: 데이터 전처리 기법 (60분)정제 및 변환(20분)이상치 및 결측값 처리(20분)피처 엔지니어링(20분)4일차: 데이터 탐색 분석 (60분)기술 통계 핵심(20분)시각화 핵심(Histogram, Box plot 등)(20분..

머신러닝 이해하기2 (분류)

1. 혼동행렬(Confusion Matrix)의 개념혼동행렬은 분류 모델이 얼마나 잘 예측했는지 확인하는 표 형태의 도구입니다.분류 결과를 실제값과 예측값에 따라 네 가지로 구분하여 표현합니다.구분예측 Positive (P)예측 Negative (N)실제 Positive (P)TP (True Positive, 진짜 양성)FN (False Negative, 가짜 음성)실제 Negative (N)FP (False Positive, 가짜 양성)TN (True Negative, 진짜 음성)TP: 실제로도 양성, 예측도 양성 (정답)TN: 실제로도 음성, 예측도 음성 (정답)FP: 실제로는 음성이나, 양성으로 잘못 예측한 경우 (오류)FN: 실제로는 양성이나, 음성으로 잘못 예측한 경우 (오류)2. 평가 지표의 ..

머신러닝 이해하기(분류)

1. 데이터 유형의 종류데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 구분된다. 이를 세분화하면 다음과 같다.1.1. 정형 데이터 (Structured Data)특징: 행과 열로 구성된 구조화된 데이터예시:관계형 데이터베이스 (MySQL, PostgreSQL)엑셀 스프레드시트로그 데이터 (웹사이트 방문 기록)1.2. 반정형 데이터 (Semi-structured Data)특징: 일정한 구조를 가지지만 완전히 정형화되지 않은 데이터예시:JSON, XML 파일NoSQL 데이터베이스 (MongoDB)이메일 본문 및 메타데이터1.3. 비정형 데이터 (Unstructured Data)특징: 정해진 구조 없이 다양한 형식으로 존재하는 데이터예시:텍스트 데..

캔바(Canva)란?

캔바(Canva)란?캔바(Canva)는 디자인 초보자도 쉽게 사용할 수 있는 온라인 그래픽 디자인 및 문서 제작 도구입니다. 전문적인 디자인 소프트웨어(예: Photoshop, Illustrator) 없이도 프레젠테이션, 포스터, 소셜미디어 콘텐츠, 보고서, 브로슈어 등을 손쉽게 만들 수 있습니다.캔바의 주요 기능템플릿 기반 디자인보고서, 발표 자료, 포스터, 명함, 소셜미디어 콘텐츠 등 수천 개의 템플릿 제공템플릿을 선택 후 글자와 이미지 수정만으로 빠르게 제작 가능드래그 & 드롭 편집이미지, 도형, 아이콘, 텍스트, 그래프 등을 드래그 & 드롭 방식으로 쉽게 배치 가능협업 기능팀원들과 실시간 공동 편집 가능Google Docs처럼 댓글 달기 및 수정 요청 가능보고서 및 문서 제작 기능PDF, PPT,..

데이터 기반 의사결정을 위한 확률 및 분포 5-2]

1. 오차(Error)실제값과 예측값 간의 차이오차는 모델이 알 수 없는 진짜 차이를 의미합니다.수식으로 표현하면:오차(Error)=실제값−진짜모집단의예측값즉, 오차는 모델이 절대로 알 수 없는 이론적인 개념입니다.2. 잔차(Residual)실제 관측된 값과 모델이 실제로 예측한 값의 차이잔차는 데이터를 가지고 계산할 수 있는 실제 값과 모델 예측값의 차이를 의미합니다.수식으로 표현하면:잔차(Residual)=실제관측값−모델의예측값즉, 잔차는 모델이 실제 데이터에서 구할 수 있는 현실적인 값입니다.오차(Error) → 모델이 절대 모르는 진짜 값과의 차이 (이론적 개념)잔차(Residual) → 모델이 실제로 예측한 값과 데이터의 차이 (현실적 개념)쉽게 오차는 '이상적인(모집단) 차이', 잔차는 '실제..

데이터 기반 의사결정을 위한 확률 및 분포 5-1]

1. 상관관계와 인과관계 상관 관계양의 상관관계:음의 상관관계트래픽( ) 과 매출 상관관계는?트래픽과 매출의 관계트래픽(방문자 수 또는 유입량)과 매출의 상관관계는 일반적으로 양(+)의 상관관계가 있습니다.다만, 그 정도는 다음의 조건에 따라 달라질 수 있습니다.유입 트래픽의 품질타겟 고객군의 유입이 많다면 매출과 강한 양의 상관관계를 보인다.무작위로 늘어난 트래픽이라면 매출 상승과의 관련성이 낮을 수 있다.전환율(Conversion Rate)방문자 대비 구매율이 높다면, 트래픽 증가 시 매출이 비례적으로 증가한다.전환율이 낮다면, 트래픽 증가가 곧바로 매출 상승으로 이어지기 어렵다.마케팅 및 판매 전략프로모션, 할인 행사 등 전략적인 마케팅을 통해 유입된 트래픽은 매출 증가와 높은 상관성을 보인다.결..

구글 코렙 연결(Google Colab 연동)

자신의 구글드라이브가 있다면 from google.colab import drivedrive.mount('/content/drive/')Mounted at /content/drive/   결과값이 나오면 정상 연결 ( 자신의 구글드라이브와 구글개정이 있어야 됩니다.)이후 자신의 구글 드라이브에 폴더생성후 해당되는 주소를 코드에 입력하면 폴더안의 데이터 파일을 불러올 수 있습니다.1. 구글 드라이브와 구글 코랩 연결 구글 코랩은 클라우드 환경에서 Python을 실행할 수 있는 플랫폼으로, 구글 드라이브에 저장된 데이터를 활용하려면 먼저 드라이브와 연결해야 한다. 이를 통해 드라이브에 저장된 파일을 불러오거나 저장할 수 있다.2. 구글 드라이브 연결 방법구글 드라이브를 구글 코랩과 연결하는 방법은 크게 두 ..

구글 코렙 한글적용(Google Colab 한글)

한글 폰트(NanumGothic)를 설치한 후, matplotlib 폰트 캐시를 갱신하고, 강제로 다시 로드하는 과정이 추가되었습니다.이를 통해 matplotlib이 한글 폰트를 정상적으로 인식하게 합니다. # 1. 한글 폰트 설치 (Google Colab 전용)!apt-get update -qq!apt-get install -qq -y fonts-nanumimport matplotlib.pyplot as pltimport matplotlib.font_manager as fmimport os# 2. matplotlib에서 한글 폰트 설정def set_korean_font():    font_path = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf"  # 폰트 경..

데이터 기반 의사결정을 위한 확률 및 분포 4-2]

프로모션 A:전환한 고객수: 60명전환하지 않은 고객수: 440명전환율:  즉, 12%입니다.프로모션 B:전환한 고객수: 90명전환하지 않은 고객수: 410명전환율: 즉, 18%입니다.따라서, 각 프로모션의 전환율을 계산해보면:프로모션 A의 전환율은 12%프로모션 B의 전환율은 18%# A/B 프로모션별 전환 수와 비전환 수# [전환한 고객 수, 전환하지 않은 고객 수]promotion_A = [60, 440] # A 프로모션 (전환율 60/(60+440) = 12%)promotion_B = [90, 410] # B 프로모션 (전환율 90/(90+410) = 18%)# 카이제곱 검정을 위한 분할표 생성conversion_table = np.array([promotion_A, promotion_B])#..

데이터 기반 의사결정을 위한 확률 및 분포 4-1]

모수 검정(Parametric Test)모수 검정(Parametric Test)은 모집단이 특정한 확률 분포(주로 정규 분포)를 따른다고 가정하고 수행하는 통계적 검정 방법이다. 이러한 검정은 모집단의 평균, 분산 등과 같은 모수(parameter) 를 추정하고 비교하는 데 초점을 맞춘다.1. 모수 검정의 특징확률 분포 가정모집단이 특정한 분포(주로 정규 분포)를 따른다고 가정한다.데이터 크기일반적으로 표본 크기가 크거나(보통 30개 이상), 모집단이 정규성을 만족해야 한다.모수 사용모집단의 평균(μ), 분산(σ²) 등의 모수를 추정하고 비교한다.강력한 검정력주어진 가정이 충족될 경우, 비모수 검정보다 더 강력한 검정력을 가진다.2. 대표적인 모수 검정 종류검정 종류  /  사용 목적  / 예시t-검정 ..

데이터 분석 용어 및 정의 (영문)/(한글)

한글 / 영A/B testing: 두 가지 변형의 웹 페이지를 테스트하여 사용자 트래픽 유치 및 수익 창출에 가장 성공적인 페이지를 결정하는 과정Absolute reference: 함수에서 행과 열이 고정되어 복사해도 변하지 않는 참조Access control: 스프레드시트 보호를 위한 비밀번호, 사용자 권한, 암호화 등의 기능Accuracy: 데이터가 실제 측정하거나 설명하는 대상에 일치하는 정도Action-oriented question: 답이 변화를 이끄는 질문Administrative metadata: 디지털 자산의 기술적 소스를 나타내는 메타데이터Aesthetic (R): 플롯의 시각적 속성Agenda: 예정된 일정 목록Aggregation: 여러 조각을 하나로 모으는 과정Algorithm: 특..

올라운드 프로패셔널에 대하여

[출처 : 노가영 작가님 "콘텐츠가 전부다" 중 일부]"AI가 절대 쓸 수 없는 시나리오를 어떻게 쓸 것인지 매일 고민하고 있다. - 봉준호 감독" 세계적인 영화감독마저도 AI시대의 생존 방식을 우려하고 있습니다. AI의 진화로 인간의 지성과 행동력을 압도하는 미래가 찾아오더라도 기업이 필요로 하고 동료들이 함께 일하고 싶은 인재는 누구일까요?"AI가 절대 쓸 수 없는 시나리오를 어떻게 쓸 것인가 매일 고민하고 있다."주말에 개봉한 SF 영화 의 홍보 인터뷰에서 봉준호 감독이 한 말이다. 그는 "알파고와의 대국에서 보여준 이세돌 9단의 78수처럼. 그런 수가 3페이지 걸러 하나씩 나오는 시나리오를 쓰리라 다짐한다.”라고도 했다. 한국의 자랑이자 세계적 영화감독인 봉준호 감독마저도 AI시대, 작가의 생존 ..

확률과 분포 이해하기 3]

학습목표연속형 확률과 이산형 확률에 대해 이해합니다.다양한 확률의 분포를 알아봅니다.실습 Python 활용 다양한 분포 익히기제이슨을 회사에서 많이 다룬다 SQL이나 파이썬에서 파씽 할 줄 알아야된다.제이슨을 많이 다뤄보면 좋다.JSON (JavaScript Object Notation) 이란?1. JSON의 특징1) 경량 데이터 포맷XML과 비교하여 데이터 표현이 간결하며, 파일 크기가 작음.텍스트 기반이므로 사람이 읽고 이해하기 쉬움.2) 키-값 (Key-Value) 형식Python의 딕셔너리(Dictionary)와 유사한 구조.데이터는 "키(Key)" 와 "값(Value)" 형태로 저장됨.3) 다양한 프로그래밍 언어에서 지원JSON은 Python, JavaScript, Java, C++, PHP, ..

빅분기(빅데이터 분석기사) 시험이란?

빅데이터 분석기사(Big Data Analyst, BDA) 시험은 한국데이터산업진흥원(K-DATA)에서 주관하는 국가기술자격 시험으로, 빅데이터를 활용한 데이터 분석 역량을 검증하는 자격증이다.1. 시험 개요정식 명칭: 빅데이터 분석기사영문 명칭: Big Data Analyst (BDA)주관 기관: 한국데이터산업진흥원(K-DATA)응시 자격: 제한 없음 (누구나 응시 가능)시험 방식: 필기(객관식) + 실기(주관식 및 실습)2. 시험 과목 및 출제 내용1차 필기 시험 (객관식 4지 선다형, 100점 만점, 60점 이상 합격)과목 주요 내용빅데이터 분석 기획데이터 분석 프로세스, 비즈니스 요구 사항 정의빅데이터 탐색데이터 수집, 전처리, 데이터 유형 및 구조 분석빅데이터 모델링통계 기법, 머신러닝, 데이터..

Zotero란?

Zotero의 주요 기능자료 수집: 웹 페이지에서 직접 자료를 저장할 수 있습니다. Zotero Connector를 사용하면 클릭 한 번으로 책, 기사, 웹 페이지 등을 Zotero 라이브러리에 추가할 수 있습니다.조직화: 자료를 컬렉션으로 정리하고 태그를 추가하여 쉽게 검색할 수 있습니다.인용 및 참고문헌 생성: 다양한 인용 스타일을 지원하며, Microsoft Word, Google Docs 등에서 직접 인용을 삽입하고 참고문헌을 생성할 수 있습니다.PDF 관리: PDF 파일을 라이브러리에 추가하고 주석을 달 수 있으며, 관련된 메타데이터를 자동으로 가져올 수 있습니다.동기화 및 협업: Zotero 계정을 만들면 여러 장치 간에 라이브러리를 동기화하고 다른 사용자와 공유할 수 있습니다.설치 방법1. ..

OneTab 설치

OneTab은 브라우저 탭 관리 도구로, 여러 개의 탭을 하나로 모아서 효율적으로 관리하고 시스템 자원을 절약하는 데 도움을 주는 확장 프로그램입니다.1. OneTab 기능탭 통합: 여러 개의 브라우저 탭을 하나의 탭으로 통합하여, 탭을 정리하고 공간을 절약합니다.탭 복원: 나중에 다시 탭을 복원할 수 있으며, 각 탭을 별도로 다시 열거나 한 번에 모두 열 수 있습니다.탭 저장: 탭들을 그룹화하여 저장하고, 필요할 때 복원할 수 있습니다. 이렇게 저장된 탭들은 이후에 언제든지 다시 열 수 있습니다.리소스 절약: 탭을 통합하면 각 탭이 사용하는 리소스(CPU, 메모리 등)를 절약할 수 있습니다.탭 공유: 저장된 탭 목록을 다른 사람과 공유할 수 있는 링크를 생성할 수 있습니다.2. OneTab 설치 방법 ..

Main Quest04 실습-3일차2nd

output_df = pd.read_csv("/content/drive/MyDrive/아이펠_오마카세_프로젝트/output.csv")# 모든 컬럼 표시 옵션 설정 (옵션)pd.set_option('display.max_columns', None)# 데이터셋 상위 5개 행 출력print(output_df.head())# 각 컬럼별 결측치 개수 확인  총3개의 컬럼에서 결측치 발견print("결측치 현황:")print(output_df.isnull().sum())# 중복 데이터 확인 중복데이터 없음print("중복 행 수:", output_df.duplicated().sum())brand_name 컬럼에서 결측치가 가장 많고, sub3_category와 sub4_category도 상당..

데이터분석 책 읽는 순서 데이터 분석

1. 세상에서 가장 쉬운 통계학입문 - 확률과 분포 강의를 듣고 있는 지금 가장 먼저 읽어야 할 책이다. 중학교 수학 지식만으로도 이해할 수 있게 사칙연산, 제곱, 루트만으로 통계학의 기초를 설명하고 있어, 기술 통계와 추론 통계의 기본 개념, 표준편차, 정규분포, 가설검정, 구간추정 등을 쉽게 설명하여 현재 듣고 있는 확률과 분포 강의의 이해를 크게 도울 것. 2. 누워서 읽는 통계학 - “세상에서 가장 쉬운 통계학입문”에서 배운 기초 개념을 더 확장하고 심화할 수 있다. 통계학의 기본 개념을 쉽게 설명하고 있어 확률과 분포 강의 내용을 보완하는데 도움이 될 것. 3. 데이터 과학을 위한 통계(2판) - 통계학 기초를 다진 후에는 이 책으로 데이터 과학에 필요한 통계 개념을 더 깊이 학습하는..

300x250
SMALL