300x250

데이터분석 19

구글, 화제의 프롬프트 엔지니어링 논문 공개

아래 내용은 번역한 내용이며, 해당 원서는 아래에 올렸습니다. 프롬프트 엔지니어링저자: Lee Boonstra감사의 말검토자 및 기여자Michael Sherman, Yuan Cao, Erick Armbrust, Anant Nawalgaria, Antonio Gulli, Simone Cammel큐레이터 및 편집자Antonio Gulli, Anant Nawalgaria, Grace Mollison기술 문서 작성자Joey Haymaker디자이너Michael Lanning목차서론프롬프트 엔지니어링LLM 출력 구성출력 길이샘플링 제어온도Top-K 및 Top-P통합하기프롬프트 기술일반 프롬프트 / 제로샷원샷 및 퓨샷시스템, 문맥 및 역할 프롬프트시스템 프롬프트역할 프롬프트문맥 프롬프트Step-back 프롬프트Cha..

데이터 마이닝 개념과 기법 4/e

데이터 마이닝 개념과 기법종합적인 학문 및 기술 분야로서 데이터 마이닝의 특징을 소개하며, 정보 기술의 진화와 데이터 마이닝의 필요성, 그리고 응용 분야의 중요성에 대해 설명한다. 먼저, 데이터 마이닝을 위한 다양한 유형의 데이터 타입에 대해 알아보고, 데이터 마이닝 작업의 주요 유형과 마이닝 지식의 종류, 사용되는 기술의 종류, 그리고 분석 환경에 따라 활용되는 다양한 기법에 대해 설명한다.저자Jiawei Han, Pei Jian, Hanghang Tong출판에이콘출판출판일2025.01.311. AARRR (Acquisition, Activation, Retention, Revenue, Referral)
AARRR은 데이터 분석을 통해 사용자 행동을 추적하고 개선하는 데 초점이 맞춰져 있습니다. 이에 ..

된다! 최반장의 실무 엑셀 with 피벗 테이블

세미나도 진행해주셔서 무료로 들었습니다.여기 참고하세요https://event-us.kr/kdevcon/event그럼 이세미나하신분이 책도 내셨어요된다! 최반장의 실무 엑셀 with 피벗 테이블은 단순히 엑셀 기능을 배우는 책이 아니라, 실무에서 데이터를 다루는 데 필요한 핵심 기술과 저자의 진심 어린 노하우를 담은 작품입니다.이 책은 엉망으로 저장된 데이터를 정리하고, 피벗 테이블을 활용해 데이터를 분석하며, 설득력 있는 보고서와 대시보드로 완성하는 과정을 친절하게 안내합니다. 특히, 저자가 직접 제작한 88개의 무료 동영상 강의와 QR코드를 통해 학습 효과를 극대화할 수 있어 독자와 소통하려는 마음이 느껴집니다.저자 최재완(최반장)은 12년간 실무 경험을 바탕으로 팀원들에게 엑셀을 가르쳤던 마음을 책..

세상에서 가장 쉬운 통계학 입문

세상에서 가장 쉬운 통계학 입문 (난이도: ★☆☆☆☆)복잡한 공식과 기호를 사용하지 않고, 사칙연산과 제곱, 루트 등 중학교 기초수학만으로 통계학의 기초를 확실히 다질 수 있도록 돕는 입문서입니다.출판사 : 지상사지음 : 고지마 히로유키 / 박주영 옮김표준, 표준편차, 분산 으로 시작한 통계학 입문 도서 마지막 장에는 카이제곱분포와 함께 t분포에 대해서 나온다.이와 같이 정규분포라고 알고 있는 모집단에서 소수의 관측 데이터로 그 모집단의 평균값인 모평균 을 구간추정하는 방법을 얻을 수 있다. 또한 이것은 표본평균과 표본표준편차라는 제1부의 처음에서 도입한 데이터 특성을 알기 위한 기본적인 통계량만을 사용해 왔기 때문에 안심할 수 있을 것입니다. 이것이 이 책의 목표점이자 통계학 초급의 수료 지점이다. 라..

데이터 시각화의 주요 단계

데이터 시각화는 여러 단계를 거쳐 이루어지는데, 크게 세 가지 주요 단계로 나눌 수 있다.1단계: 데이터 탐색 및 패턴 파악: 가장 먼저 할 일은 데이터를 자세히 살펴보고 숨겨진 패턴이나 특징을 찾아내는 것. 마치 탐정이 단서를 찾는 것처럼 데이터 속에 숨겨진 의미를 발掘하는 단계. 2단계: 시각화 계획: 어떤 종류의 그래프나 차트가 데이터를 가장 효과적으로 보여줄 수 있을지 결정하는 단계. 데이터의 특징과 분석 목표에 따라 적절한 시각화 도구를 선택해야 한다. 3단계: 시각화 생성 및 개선: 선택한 시각화 도구를 사용하여 실제로 그래프나 차트를 만들고, 필요에 따라 색상, 레이블, 범례 등을 수정하여 가독성을 높이는 단계. 이 단계들을 거치면서 데이터를 효과적으로 전달하고 이해를 돕는 시각화를 만들 수..

머신러닝 이해하기2 (분류)

1. 혼동행렬(Confusion Matrix)의 개념혼동행렬은 분류 모델이 얼마나 잘 예측했는지 확인하는 표 형태의 도구입니다.분류 결과를 실제값과 예측값에 따라 네 가지로 구분하여 표현합니다.구분예측 Positive (P)예측 Negative (N)실제 Positive (P)TP (True Positive, 진짜 양성)FN (False Negative, 가짜 음성)실제 Negative (N)FP (False Positive, 가짜 양성)TN (True Negative, 진짜 음성)TP: 실제로도 양성, 예측도 양성 (정답)TN: 실제로도 음성, 예측도 음성 (정답)FP: 실제로는 음성이나, 양성으로 잘못 예측한 경우 (오류)FN: 실제로는 양성이나, 음성으로 잘못 예측한 경우 (오류)2. 평가 지표의 ..

머신러닝 이해하기(분류)

1. 데이터 유형의 종류데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 구분된다. 이를 세분화하면 다음과 같다.1.1. 정형 데이터 (Structured Data)특징: 행과 열로 구성된 구조화된 데이터예시:관계형 데이터베이스 (MySQL, PostgreSQL)엑셀 스프레드시트로그 데이터 (웹사이트 방문 기록)1.2. 반정형 데이터 (Semi-structured Data)특징: 일정한 구조를 가지지만 완전히 정형화되지 않은 데이터예시:JSON, XML 파일NoSQL 데이터베이스 (MongoDB)이메일 본문 및 메타데이터1.3. 비정형 데이터 (Unstructured Data)특징: 정해진 구조 없이 다양한 형식으로 존재하는 데이터예시:텍스트 데..

데이터 기반 의사결정을 위한 확률 및 분포 5-2]

1. 오차(Error)실제값과 예측값 간의 차이오차는 모델이 알 수 없는 진짜 차이를 의미합니다.수식으로 표현하면:오차(Error)=실제값−진짜모집단의예측값즉, 오차는 모델이 절대로 알 수 없는 이론적인 개념입니다.2. 잔차(Residual)실제 관측된 값과 모델이 실제로 예측한 값의 차이잔차는 데이터를 가지고 계산할 수 있는 실제 값과 모델 예측값의 차이를 의미합니다.수식으로 표현하면:잔차(Residual)=실제관측값−모델의예측값즉, 잔차는 모델이 실제 데이터에서 구할 수 있는 현실적인 값입니다.오차(Error) → 모델이 절대 모르는 진짜 값과의 차이 (이론적 개념)잔차(Residual) → 모델이 실제로 예측한 값과 데이터의 차이 (현실적 개념)쉽게 오차는 '이상적인(모집단) 차이', 잔차는 '실제..

데이터 기반 의사결정을 위한 확률 및 분포 5-1]

1. 상관관계와 인과관계 상관 관계양의 상관관계:음의 상관관계트래픽( ) 과 매출 상관관계는?트래픽과 매출의 관계트래픽(방문자 수 또는 유입량)과 매출의 상관관계는 일반적으로 양(+)의 상관관계가 있습니다.다만, 그 정도는 다음의 조건에 따라 달라질 수 있습니다.유입 트래픽의 품질타겟 고객군의 유입이 많다면 매출과 강한 양의 상관관계를 보인다.무작위로 늘어난 트래픽이라면 매출 상승과의 관련성이 낮을 수 있다.전환율(Conversion Rate)방문자 대비 구매율이 높다면, 트래픽 증가 시 매출이 비례적으로 증가한다.전환율이 낮다면, 트래픽 증가가 곧바로 매출 상승으로 이어지기 어렵다.마케팅 및 판매 전략프로모션, 할인 행사 등 전략적인 마케팅을 통해 유입된 트래픽은 매출 증가와 높은 상관성을 보인다.결..

데이터 기반 의사결정을 위한 확률 및 분포 4-2]

프로모션 A:전환한 고객수: 60명전환하지 않은 고객수: 440명전환율:  즉, 12%입니다.프로모션 B:전환한 고객수: 90명전환하지 않은 고객수: 410명전환율: 즉, 18%입니다.따라서, 각 프로모션의 전환율을 계산해보면:프로모션 A의 전환율은 12%프로모션 B의 전환율은 18%# A/B 프로모션별 전환 수와 비전환 수# [전환한 고객 수, 전환하지 않은 고객 수]promotion_A = [60, 440] # A 프로모션 (전환율 60/(60+440) = 12%)promotion_B = [90, 410] # B 프로모션 (전환율 90/(90+410) = 18%)# 카이제곱 검정을 위한 분할표 생성conversion_table = np.array([promotion_A, promotion_B])#..

데이터 분석 용어 및 정의 (영문)

데이터 분석 용어에 대한 전체 용어집을 만드는 과정입니다. 비어있는 곳은 추후 업데이트 됩니다.AA/B testing: The process of testing two variations of the same web page to determine which page is more successful at attracting user traffic and generating revenueAbsolute reference: A reference within a function that is locked so that rows and columns won’t change if the function is copiedAccess control: Features such as password protection..

확률과 분포 이해하기 2]

중심 극한 정리(CLT)란? 중심 극한 정리(Central Limit Theorem, CLT)는 통계학에서 가장 기본적이고 중요한 정리로, 다음과 같이 정의:독립적이고 동일한 분포(i.i.d.)를 가진 확률 변수들의 표본 평균은 표본의 크기가 충분히 커질 때 정규 분포에 근사하게 된다는 정리.중심 극한 정리의 핵심 내용모집단의 분포와 무관: 원래 모집단이 어떤 분포를 따르든 상관없이 적용됩니다.표본 크기: 일반적으로 표본 크기(n)가 30 이상이면 충분히 크다고 간주합니다.표본 평균의 분포: 표본 평균은 평균이 μ(모집단의 평균)이고 표준편차가 σ/√n(모집단의 표준편차/√표본크기)인 정규분포에 근사합니다.중심 극한 정리의 조건확률 변수들이 서로 독립적이어야 함동일한 확률 분포를 가져야 함확률 분포의 기..

Main Quest04 실습 2일차

2일차(2/25) : EDA와 feature engineering / 분석 전략 수립조별로 가설설정 해보기프로젝트 계획세우기(일별/시간별)데이터 전처리결측치 처리 방법 논의 / 결측치 채우기이상치 탐지2일차(2/25) : EDA와 feature engineering / 분석 전략 수립 - 조별로 가설설정 해보기 - 프로젝트 계획세우기(일별/시간별) - 데이터 전처리     - 결측치 처리 방법 논의 / 결측치 채우기     - 이상치 탐지팀회의록오늘은 팀원님 개인사정으로 부재중이나 프로젝트진행에 차질이 없도록 진행과정을 세부적으로 기록하여 금일 부재중으로 인한 영향이 없도록 하겠습니다. 금일 분석목표 작성필요 - 팀장 : 오늘 진행사항에 대해 오전에 전처리, 이상치 정리, 텍스트 소문자로 변경. 오후에 ..

Main Quest04 실습 1일차

아래 내용은 모두연 프로덕트 데이터분석가 1기 과정중 4일 동안 진행되는 Main Quest04 실습을 정리한 내용입니다따라서 출처는 모두연 PDA교육내용이며 제가 추가로 정리한 내용을 포함 합니다. (무단 배포와 사용은 저작권 침해에 대한 법적 조치가 따를 수 있습니다.)자 그럼 시작해 볼까요?1일차(2/24) : 팀 빌딩과 데이터 분석OT ( 10:10 ~ 10:30 )팀별 아이스브레이킹데이터 분석파일별 데이터 확인데이터 상세 내용 확인데이터셋 간 연계방안 고민분석 방향 논의(주제 선정)2일차(2/25) : EDA와 feature engineering / 분석 전략 수립조별로 가설설정 해보기프로젝트 계획세우기(일별/시간별)데이터 전처리결측치 처리 방법 논의 / 결측치 채우기이상치 탐지3일차(2/26)..

데이터 분석가 관련 영화

분석가들이 가장많이 나오는 영화 포스터엔 군인처럼 보이지만 직업은 회계사다. 잼있게 본영화인데 요즘은 쿠팡플레이 에서 무료로 볼수있어서 다시 봤다. 역시 분석은 중요하며 잼있는영화.시대는 AI가 자기 스스로 판단하고 인간과 대립하는 먼 미래이지만 그미래를 만드는 건 지금의 인간들이 아닌가 한다. 과연 어떤 미래를 설계하고 예측하게 될지 그건 현대를 살아가는 사람들의 숙제가 아닐까 한다.그만 큼 충격이 커서 그렇다고 생각하지만 너무 어느 특정분야에 분석가처럼 그일에 집중하다보면 다른것을 못 볼수 있다. 앞으로는 인간과 AI가 공존하는 세상에서 과거처럼 어느 특정분야에만 뛰어난 인물을 원하는 세상보다는 어쩌면 사소한것도 볼수 있는 그래서 데이터사이언티스트는 하드스킬과 소프트 스킬을 다 갖추어야 뛰어난 능력이..

Feature Engineering

1. Feature Engineering이란?Feature Engineering은 데이터에서 모델의 성능을 극대화할 수 있도록 특징(feature)을 변형, 생성, 선택하는 과정이다. 머신러닝 모델의 성능은 데이터의 질에 크게 의존하기 때문에, Feature Engineering은 매우 중요한 과정이다.2. Feature Engineering의 핵심 과정Feature Engineering은 보통 다음 4가지 과정으로 나뉜다.Feature 생성 (Feature Creation)원본 데이터에서 새로운 특징을 만들어냄예: 날짜 데이터를 기반으로 '연도', '월', '요일'을 추가Feature 변환 (Feature Transformation)데이터를 모델이 잘 이해할 수 있도록 변형예: 로그 변환, 스케일링 (..

데이터분석머신러닝-실습(k-Means, DBSCAN)

#군집 k-Means# 기본 라이브러리 불러오기import pandas as pdimport matplotlib.pyplot as plt'''[Step 1] 데이터 준비'''# Wholesale customers 데이터셋 가져오기 (출처: UCI ML Repository)uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\00292/Wholesale%20customers%20data.csv'df = pd.read_csv(uci_path, header=0)'''[Step 2] 데이터 탐색'''# 데이터 살펴보기df.head()# 데이터 자료형 확인df.info()RangeIndex: 440 entries, 0 to 439Data c..

데이터분석머신러닝-실습(KNN, SVM)

해당내용은 정보문화사 파이썬 머신러닝 판다스 데이터 분석 교재를 기준으로 했으며, 책 소개는 아래를 참고하시기 바랍니다. 데이터분석가 관련 도서 https://nesaram-health-1story.tistory.com/136 데이터 분석가 관련 추천도서데이터 분석가는 보고서작성, 시각화, 통찰력, 비즈니스/도메인 지식의 능력이 필요하다.여기서 비즈니스/도메인 지식은 특정 산업이나 회사의 주요 활동 영역에 대한 이해를 말하며, 쉽게 말해nesaram-health-1story.tistory.com# 기본 라이브러리 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns'''[Step 1] 데이터..

EDA(탐색적 데이터 분석) 훈련 방법

EDA를 효과적으로 훈련하기 위한 단계1. 데이터 이해 및 준비 •데이터의 구조 파악: `head()`, `tail()`, `info()`, `describe()` 등을 사용해 데이터의 기본 정보를 확인합니다. •결측치 및 이상치 확인: 결측값(`isnull()`), 이상치(박스플롯 등)를 찾아내고 처리합니다. •데이터 타입 확인 및 변환: 각 열의 데이터 유형을 확인하고 필요 시 변환합니다.2. 기초 통계 분석 •평균, 중앙값, 표준편차 등 주요 통계값을 계산하여 데이터 분포를 이해합니다. •속성 간 상관관계 분석: `corr()` 함수와 히트맵(Heatmap)을 사용해 변수 간 관계를 시각화합니다.3. 시각화를 통한 탐색 •히스토그램, 박스플롯, 산점도 등을 활용해 데이터를 다양한 각도에서 시각화합니..

SMALL