분류 전체보기 374

데이터 기반 의사결정을 위한 확률 및 분포 5-2]

1. 오차(Error)실제값과 예측값 간의 차이오차는 모델이 알 수 없는 진짜 차이를 의미합니다.수식으로 표현하면:오차(Error)=실제값−진짜모집단의예측값즉, 오차는 모델이 절대로 알 수 없는 이론적인 개념입니다.2. 잔차(Residual)실제 관측된 값과 모델이 실제로 예측한 값의 차이잔차는 데이터를 가지고 계산할 수 있는 실제 값과 모델 예측값의 차이를 의미합니다.수식으로 표현하면:잔차(Residual)=실제관측값−모델의예측값즉, 잔차는 모델이 실제 데이터에서 구할 수 있는 현실적인 값입니다.오차(Error) → 모델이 절대 모르는 진짜 값과의 차이 (이론적 개념)잔차(Residual) → 모델이 실제로 예측한 값과 데이터의 차이 (현실적 개념)쉽게 오차는 '이상적인(모집단) 차이', 잔차는 '실제..

데이터 기반 의사결정을 위한 확률 및 분포 5-1]

1. 상관관계와 인과관계 상관 관계양의 상관관계:음의 상관관계트래픽( ) 과 매출 상관관계는?트래픽과 매출의 관계트래픽(방문자 수 또는 유입량)과 매출의 상관관계는 일반적으로 양(+)의 상관관계가 있습니다.다만, 그 정도는 다음의 조건에 따라 달라질 수 있습니다.유입 트래픽의 품질타겟 고객군의 유입이 많다면 매출과 강한 양의 상관관계를 보인다.무작위로 늘어난 트래픽이라면 매출 상승과의 관련성이 낮을 수 있다.전환율(Conversion Rate)방문자 대비 구매율이 높다면, 트래픽 증가 시 매출이 비례적으로 증가한다.전환율이 낮다면, 트래픽 증가가 곧바로 매출 상승으로 이어지기 어렵다.마케팅 및 판매 전략프로모션, 할인 행사 등 전략적인 마케팅을 통해 유입된 트래픽은 매출 증가와 높은 상관성을 보인다.결..

구글 코렙 연결(Google Colab 연동)

자신의 구글드라이브가 있다면 from google.colab import drivedrive.mount('/content/drive/')Mounted at /content/drive/   결과값이 나오면 정상 연결 ( 자신의 구글드라이브와 구글개정이 있어야 됩니다.)이후 자신의 구글 드라이브에 폴더생성후 해당되는 주소를 코드에 입력하면 폴더안의 데이터 파일을 불러올 수 있습니다.1. 구글 드라이브와 구글 코랩 연결 구글 코랩은 클라우드 환경에서 Python을 실행할 수 있는 플랫폼으로, 구글 드라이브에 저장된 데이터를 활용하려면 먼저 드라이브와 연결해야 한다. 이를 통해 드라이브에 저장된 파일을 불러오거나 저장할 수 있다.2. 구글 드라이브 연결 방법구글 드라이브를 구글 코랩과 연결하는 방법은 크게 두 ..

구글 코렙 한글적용(Google Colab 한글)

한글 폰트(NanumGothic)를 설치한 후, matplotlib 폰트 캐시를 갱신하고, 강제로 다시 로드하는 과정이 추가되었습니다.이를 통해 matplotlib이 한글 폰트를 정상적으로 인식하게 합니다. # 1. 한글 폰트 설치 (Google Colab 전용)!apt-get update -qq!apt-get install -qq -y fonts-nanumimport matplotlib.pyplot as pltimport matplotlib.font_manager as fmimport os# 2. matplotlib에서 한글 폰트 설정def set_korean_font():    font_path = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf"  # 폰트 경..

데이터 기반 의사결정을 위한 확률 및 분포 4-2]

프로모션 A:전환한 고객수: 60명전환하지 않은 고객수: 440명전환율:  즉, 12%입니다.프로모션 B:전환한 고객수: 90명전환하지 않은 고객수: 410명전환율: 즉, 18%입니다.따라서, 각 프로모션의 전환율을 계산해보면:프로모션 A의 전환율은 12%프로모션 B의 전환율은 18%# A/B 프로모션별 전환 수와 비전환 수# [전환한 고객 수, 전환하지 않은 고객 수]promotion_A = [60, 440] # A 프로모션 (전환율 60/(60+440) = 12%)promotion_B = [90, 410] # B 프로모션 (전환율 90/(90+410) = 18%)# 카이제곱 검정을 위한 분할표 생성conversion_table = np.array([promotion_A, promotion_B])#..

데이터 기반 의사결정을 위한 확률 및 분포 4-1]

모수 검정(Parametric Test)모수 검정(Parametric Test)은 모집단이 특정한 확률 분포(주로 정규 분포)를 따른다고 가정하고 수행하는 통계적 검정 방법이다. 이러한 검정은 모집단의 평균, 분산 등과 같은 모수(parameter) 를 추정하고 비교하는 데 초점을 맞춘다.1. 모수 검정의 특징확률 분포 가정모집단이 특정한 분포(주로 정규 분포)를 따른다고 가정한다.데이터 크기일반적으로 표본 크기가 크거나(보통 30개 이상), 모집단이 정규성을 만족해야 한다.모수 사용모집단의 평균(μ), 분산(σ²) 등의 모수를 추정하고 비교한다.강력한 검정력주어진 가정이 충족될 경우, 비모수 검정보다 더 강력한 검정력을 가진다.2. 대표적인 모수 검정 종류검정 종류  /  사용 목적  / 예시t-검정 ..

데이터 분석 용어 및 정의 (영문)/(한글)

한글 / 영A/B testing: 두 가지 변형의 웹 페이지를 테스트하여 사용자 트래픽 유치 및 수익 창출에 가장 성공적인 페이지를 결정하는 과정Absolute reference: 함수에서 행과 열이 고정되어 복사해도 변하지 않는 참조Access control: 스프레드시트 보호를 위한 비밀번호, 사용자 권한, 암호화 등의 기능Accuracy: 데이터가 실제 측정하거나 설명하는 대상에 일치하는 정도Action-oriented question: 답이 변화를 이끄는 질문Administrative metadata: 디지털 자산의 기술적 소스를 나타내는 메타데이터Aesthetic (R): 플롯의 시각적 속성Agenda: 예정된 일정 목록Aggregation: 여러 조각을 하나로 모으는 과정Algorithm: 특..

올라운드 프로패셔널에 대하여

[출처 : 노가영 작가님 "콘텐츠가 전부다" 중 일부]"AI가 절대 쓸 수 없는 시나리오를 어떻게 쓸 것인지 매일 고민하고 있다. - 봉준호 감독" 세계적인 영화감독마저도 AI시대의 생존 방식을 우려하고 있습니다. AI의 진화로 인간의 지성과 행동력을 압도하는 미래가 찾아오더라도 기업이 필요로 하고 동료들이 함께 일하고 싶은 인재는 누구일까요?"AI가 절대 쓸 수 없는 시나리오를 어떻게 쓸 것인가 매일 고민하고 있다."주말에 개봉한 SF 영화 의 홍보 인터뷰에서 봉준호 감독이 한 말이다. 그는 "알파고와의 대국에서 보여준 이세돌 9단의 78수처럼. 그런 수가 3페이지 걸러 하나씩 나오는 시나리오를 쓰리라 다짐한다.”라고도 했다. 한국의 자랑이자 세계적 영화감독인 봉준호 감독마저도 AI시대, 작가의 생존 ..

확률과 분포 이해하기 3]

학습목표연속형 확률과 이산형 확률에 대해 이해합니다.다양한 확률의 분포를 알아봅니다.실습 Python 활용 다양한 분포 익히기제이슨을 회사에서 많이 다룬다 SQL이나 파이썬에서 파씽 할 줄 알아야된다.제이슨을 많이 다뤄보면 좋다.JSON (JavaScript Object Notation) 이란?1. JSON의 특징1) 경량 데이터 포맷XML과 비교하여 데이터 표현이 간결하며, 파일 크기가 작음.텍스트 기반이므로 사람이 읽고 이해하기 쉬움.2) 키-값 (Key-Value) 형식Python의 딕셔너리(Dictionary)와 유사한 구조.데이터는 "키(Key)" 와 "값(Value)" 형태로 저장됨.3) 다양한 프로그래밍 언어에서 지원JSON은 Python, JavaScript, Java, C++, PHP, ..

빅분기(빅데이터 분석기사) 시험이란?

빅데이터 분석기사(Big Data Analyst, BDA) 시험은 한국데이터산업진흥원(K-DATA)에서 주관하는 국가기술자격 시험으로, 빅데이터를 활용한 데이터 분석 역량을 검증하는 자격증이다.1. 시험 개요정식 명칭: 빅데이터 분석기사영문 명칭: Big Data Analyst (BDA)주관 기관: 한국데이터산업진흥원(K-DATA)응시 자격: 제한 없음 (누구나 응시 가능)시험 방식: 필기(객관식) + 실기(주관식 및 실습)2. 시험 과목 및 출제 내용1차 필기 시험 (객관식 4지 선다형, 100점 만점, 60점 이상 합격)과목 주요 내용빅데이터 분석 기획데이터 분석 프로세스, 비즈니스 요구 사항 정의빅데이터 탐색데이터 수집, 전처리, 데이터 유형 및 구조 분석빅데이터 모델링통계 기법, 머신러닝, 데이터..

Zotero란?

Zotero의 주요 기능자료 수집: 웹 페이지에서 직접 자료를 저장할 수 있습니다. Zotero Connector를 사용하면 클릭 한 번으로 책, 기사, 웹 페이지 등을 Zotero 라이브러리에 추가할 수 있습니다.조직화: 자료를 컬렉션으로 정리하고 태그를 추가하여 쉽게 검색할 수 있습니다.인용 및 참고문헌 생성: 다양한 인용 스타일을 지원하며, Microsoft Word, Google Docs 등에서 직접 인용을 삽입하고 참고문헌을 생성할 수 있습니다.PDF 관리: PDF 파일을 라이브러리에 추가하고 주석을 달 수 있으며, 관련된 메타데이터를 자동으로 가져올 수 있습니다.동기화 및 협업: Zotero 계정을 만들면 여러 장치 간에 라이브러리를 동기화하고 다른 사용자와 공유할 수 있습니다.설치 방법1. ..

OneTab 설치

OneTab은 브라우저 탭 관리 도구로, 여러 개의 탭을 하나로 모아서 효율적으로 관리하고 시스템 자원을 절약하는 데 도움을 주는 확장 프로그램입니다.1. OneTab 기능탭 통합: 여러 개의 브라우저 탭을 하나의 탭으로 통합하여, 탭을 정리하고 공간을 절약합니다.탭 복원: 나중에 다시 탭을 복원할 수 있으며, 각 탭을 별도로 다시 열거나 한 번에 모두 열 수 있습니다.탭 저장: 탭들을 그룹화하여 저장하고, 필요할 때 복원할 수 있습니다. 이렇게 저장된 탭들은 이후에 언제든지 다시 열 수 있습니다.리소스 절약: 탭을 통합하면 각 탭이 사용하는 리소스(CPU, 메모리 등)를 절약할 수 있습니다.탭 공유: 저장된 탭 목록을 다른 사람과 공유할 수 있는 링크를 생성할 수 있습니다.2. OneTab 설치 방법 ..

Main Quest04 실습-3일차2nd

output_df = pd.read_csv("/content/drive/MyDrive/아이펠_오마카세_프로젝트/output.csv")# 모든 컬럼 표시 옵션 설정 (옵션)pd.set_option('display.max_columns', None)# 데이터셋 상위 5개 행 출력print(output_df.head())# 각 컬럼별 결측치 개수 확인  총3개의 컬럼에서 결측치 발견print("결측치 현황:")print(output_df.isnull().sum())# 중복 데이터 확인 중복데이터 없음print("중복 행 수:", output_df.duplicated().sum())brand_name 컬럼에서 결측치가 가장 많고, sub3_category와 sub4_category도 상당..

데이터분석 책 읽는 순서 데이터 분석

1. 세상에서 가장 쉬운 통계학입문 - 확률과 분포 강의를 듣고 있는 지금 가장 먼저 읽어야 할 책이다. 중학교 수학 지식만으로도 이해할 수 있게 사칙연산, 제곱, 루트만으로 통계학의 기초를 설명하고 있어, 기술 통계와 추론 통계의 기본 개념, 표준편차, 정규분포, 가설검정, 구간추정 등을 쉽게 설명하여 현재 듣고 있는 확률과 분포 강의의 이해를 크게 도울 것. 2. 누워서 읽는 통계학 - “세상에서 가장 쉬운 통계학입문”에서 배운 기초 개념을 더 확장하고 심화할 수 있다. 통계학의 기본 개념을 쉽게 설명하고 있어 확률과 분포 강의 내용을 보완하는데 도움이 될 것. 3. 데이터 과학을 위한 통계(2판) - 통계학 기초를 다진 후에는 이 책으로 데이터 과학에 필요한 통계 개념을 더 깊이 학습하는..

Obsidian

폴더 만들기왼쪽 사이드바에서 오른쪽 클릭 > '새 폴더' 선택폴더 이름을 입력하고 엔터새 노트 만들기폴더를 선택한 후 상단의 '새 노트' 아이콘 클릭또는 Ctrl+N (Windows) / Cmd+N (Mac) 단축키 사용글 작성하기노트 제목은 파일 이름이 됩니다마크다운 문법을 사용해 내용 작성내용 접기제목 아래 내용을 접으려면 다음과 같이 작성:소제목다른 소제목더 많은 내용`내용 내용 내용`text# 주제미리보기 모드에서 소제목 옆의 화살표로 내용을 접고 펼 수 있습니다링크 만들기[[노트이름]] 형식으로 다른 노트에 링크태그 사용하기#태그이름 형식으로 태그 추가1. Advanced Slides란?Obsidian의 마크다운 문서로 슬라이드를 만드는 플러그인유명한 오픈소스 슬라이드 프레임워크인 Reveal...

Scikit-learn(사이-킷 런), TensorFlow(텐서플로우)

Scikit-learnscikit-learn은 "사이-킷 런"으로 발음합니다. 여기서 'sci'는 'science(과학)'를 의미하며, 'sy-kit learn'으로 발음합니다.많은 사람들이 'scikit'이나 'SciKit', 'sci-kit learn' 등으로 잘못 발음하거나 표기하지만, 정확한 프로젝트 이름은 'scikit-learn(사이킷런)'입니다. 과거에는 'scikits.learn'이나 'scikits-learn'으로 불리기도 했지만 현재는 그렇지 않다.scikit-learn은 파이썬의 대표적인 머신러닝 라이브러리로, 다양한 머신러닝 알고리즘과 모델을 제공.① 기본 개념Estimator (추정기)머신러닝 모델을 의미하며, fit() 메서드를 사용해 학습.예) LinearRegression()..

추천도서 데이터 분석가 2개월후

2개월 동안 Python, SQL, BigQuery, Looker, Notion, GitHub 등을 학습하고, 팀 프로젝트를 통해 Kaggle 데이터를 활용하여 데이터 클리닝, 결측치, 이상치 처리 후 분석에 필요한 컬럼 및 시각화 분석후 발표 및 보고서 작성 경험후 추천 책 입니다.세상에서 가장 쉬운 통계학 입문 (난이도: ★☆☆☆☆)복잡한 공식과 기호를 사용하지 않고, 사칙연산과 제곱, 루트 등 중학교 기초수학만으로 통계학의 기초를 확실히 다질 수 있도록 돕는 입문서입니다.교보문고 링크 누워서 읽는 통계학 (난이도: ★★☆☆☆)다양한 도식화와 수학적 접근의 최소화를 통해 통계학의 기본 개념을 쉽게 이해할 수 있도록 구성된 책입니다.교보문고 링크2단계: 데이터 분석 실무 적용 (중급)A/B 테스트 (난..

로지컬 씽킹(저자:데루야 하나코, 오카다 게이코)

로지컬 씽킹(저자:데루야 하나코, 오카다 게이코)출처 : 알라딘데이터 분석가의 기술적인 부분 외에 기본 논리력을 기를 수 있는 방법은 없을까? 데이터 분석가에겐 파이썬, SQL 같은 하드 스킬도 중요하지만, 데이터를 논리적으로 스토리텔링 할 수 있는 소프트 스킬도 필요하다. 특히 데이터 분석 업무와 컨설팅 펌의 업무를 논리적인 구조와 흐름이 굉장히 유사한데 데이터 분석가는 데이터를 바탕으로 상대방을 논리적으로 설득해야 하는 일이 많다. 처음 논리적 사고를 어떻게 키워야 할지, 어떤 자료를 참고할지 막연하게 느껴지는데, 이 책을 읽어 보길 추천하는 현업 데이터 분석가의 추천글로 읽게 되었다. ‘세계 최강의 지식 상인’맥킨지식 로지컬 씽킹의 기술을 배운다!기획부터 지시와 회의, 보고서, 프레젠테이션, 고객 ..

커리어 관리툴 분석

많이 알고있는 노션, 깃허브, Reddit중에서 분석 결과노션 (Notion) - 95% 추천노션은 내 상황에 가장 적합한 도구같다. 건설 및 플랜트 분야의 풍부한 경력과 현재 데이터 분석 과정을 체계적으로 정리하기에 완벽하다.장점:•데이터베이스 기능을 활용해 프로젝트별, 분야별 경력을 효율적으로 정리 가능.•필터, 그룹, 보기 형태 등을 활용해 27년 경력을 체계적으로 시각화 가능.•데이터 분석 학습 내용을 계층적으로 구조화하여 정리 가능.• 롤업 기능을 통해 프로젝트별 성과나 학습 진행도를 집계하고 요약 가능.활용 방안:• 건설/플랜트 프로젝트 포트폴리오 구축.• 데이터 분석 학습 노트 및 진도 관리.• 경력 전환 과정의 목표 설정 및 달성도 추적.깃허브 (GitHub) - 80% 추천데이터 분석가로..

플랫폼 추천 (경력 정리, 데이터 분석 기록용)

노션 (Notion) - 95% 추천노션은 나의 상황에 가장 적합한 도구. 건설 및 플랜트 분야의 풍부한 경력과 현재 데이터 분석 교육 과정을 체계적으로 정리하기에 완벽하다.장점:• 데이터베이스 기능을 활용해 프로젝트별, 분야별 경력을 효율적으로 정리 가능• 필터, 그룹, 보기 형태 등을 활용해 27년 경력을 체계적으로 시각화 가능• 데이터 분석 과정 내용을 계층적으로 구조화하여 정리 가능• 롤업 기능을 통해 프로젝트별 성과나 학습 진행도를 집계하고 요약 가능활용 방안:• 건설/플랜트 프로젝트 포트폴리오 구축• 데이터 분석 학습 노트 및 진도 관리• 경력 전환 과정의 목표 설정 및 달성도 추적깃허브 (GitHub) - 80% 추천데이터 분석가로 전환하는 과정에서 코드 관리와 포트폴리오 구축에 매우 유용...

300x250
SMALL