2025/02 57

확률과 분포 이해하기 2]

중심 극한 정리(CLT)란? 중심 극한 정리(Central Limit Theorem, CLT)는 통계학에서 가장 기본적이고 중요한 정리로, 다음과 같이 정의:독립적이고 동일한 분포(i.i.d.)를 가진 확률 변수들의 표본 평균은 표본의 크기가 충분히 커질 때 정규 분포에 근사하게 된다는 정리.중심 극한 정리의 핵심 내용모집단의 분포와 무관: 원래 모집단이 어떤 분포를 따르든 상관없이 적용됩니다.표본 크기: 일반적으로 표본 크기(n)가 30 이상이면 충분히 크다고 간주합니다.표본 평균의 분포: 표본 평균은 평균이 μ(모집단의 평균)이고 표준편차가 σ/√n(모집단의 표준편차/√표본크기)인 정규분포에 근사합니다.중심 극한 정리의 조건확률 변수들이 서로 독립적이어야 함동일한 확률 분포를 가져야 함확률 분포의 기..

확률과 분포 이해하기 1]

주정민 강사님 : 통계학과 재학이후 데이터분석가 로 현직에서 경험이 많으신 강사님라피레터, 확률과 분포도 전통적인 분야라 책으로도 추천한다.모든 토글을 열고 닫는 단축키 Windows :Ctrl + alt + t Mac : ⌘ + ⌥ + t 1. 확률과 통계를 어떻게 쓰나데이터를 잘쓰는 회사별로 있다 (예: 쿠팡 정도가 최상)초기 스타트업은 : 데이터엔지니어가 더 필요하다.데이터가 많은 회사를 추천한다. 공고에 JD를 세부적으로 봐서 참고해야설명적 분석 : 루틴한 작업, 진진단적 분석 : 셀프 서비스 분석, 시각화, A/B 데트스 도입(사내 구축이 되어있다)기술블로그 추천함예측적분석 : 머신러닝, 지금은 데이터분석가(데이터분석하고 모델링하는)는 머신러닝은 많이 하지 않는다와 데이터사이언티스트는 분리되는 ..

'제 자리'를 찾는 Career Repotting Project

커리어에 관심있다면 한번 보세요 최근에 저도 구독했습니다.커리어 리포팅 프로젝트 '제 자리'를 찾는 Career Repotting Project주요 활동 및 서비스:뉴스레터 발행: 매주 커리어와 관련된 다양한 주제의 콘텐츠를 제공하며, 구독자들에게 연봉협상 가이드북 등의 자료를 무료로 제공합니다. ​메일리+4EO planet - 스타트업 세상의 디즈니 이오플래닛+4EO planet - 스타트업 세상의 디즈니 이오플래닛+41:1 컨설팅 프로그램: 이직의 A to Z를 다루는 맞춤형 컨설팅을 통해 이력서 작성부터 연봉협상까지 전 과정을 지원합니다. 이 프로그램은 소수 정예로 진행되며, 참여자들의 성공적인 커리어 전환을 돕습니다. ​메일리+4메일리+4메일리+4웨비나 및 오픈 카톡방 운영: 이직과 채용 관련 주..

플랜트 일정 데이터(XER 파일) 기반 일정 예측 모델 구축

목표: 플랜트 프로젝트 일정(XER 파일) 데이터를 분석하고, 머신러닝을 활용해 일정 지연을 예측하는 모델 구축사용 기술: Python, Pandas, SQL, Scikit-learn, ARIMA/Prophet (시계열 예측)주요 단계:1. XER 파일을 Pandas로 변환 및 데이터 정리2. 일정 데이터의 패턴 분석 및 시각화3. 머신러닝 모델(회귀 분석, 랜덤 포레스트)로 일정 지연 예측4. ARIMA/Prophet을 사용한 시계열 분석5. 모델 평가 및 최적화1.  XER 파일 변환 및 데이터 정리Step 1: XER 파일을 CSV 또는 Excel로 변환XER 파일이란?Primavera P6에서 사용하는 일정 관리 파일직접 읽을 수 없으므로 CSV 또는 Excel로 변환 필요변환 방법 (Primav..

공정관리 와 데이터 과학자 레벨업

데이터 과학자로 전환할 수 있지만, 일정 분석보다 더 고급 분석(예측, 최적화)에 초점을 맞추게 됨데이터 분석에서 더 나아가 머신러닝을 활용한 일정 예측 및 최적화 가능1. 데이터 과학자 (Data Scientist) 로 전환하면 가능한 역할일정 예측 및 최적화 (Scheduling Optimization & Forecasting)머신러닝을 활용하여 프로젝트 일정 지연을 예측공정 데이터를 분석해 일정 지연 원인 분석 및 해결책 제시최적의 일정 조정을 위한 수학적 모델(선형 회귀, 시계열 분석) 적용리소스 할당 최적화 (Resource Allocation Optimization)과거 프로젝트 데이터를 분석하여 최적의 인력 배치 전략 수립AI 기반의 공정 지연 위험 감지 및 대응 방안 자동화실시간 데이터 기..

공정관리와 IT직군 연관성

플랜트 분야의 공정관리팀에서 일정 관리 전문가라면, 프로젝트 일정 계획, 리소스 관리, 공정 최적화 등의 업무를 수행할 가능성이 높다. 이러한 역할에 적합한 IT 직군을 고려할 때, 데이터 엔지니어와 데이터 애널리스트 직군이 가장 적합할 수 있다1. 데이터 엔지니어 (Data Engineer) - 데이터 기반 일정 최적화추천 이유플랜트 프로젝트에서 발생하는 대량의 일정 및 운영 데이터를 효율적으로 수집, 저장, 분석하는 역할일정 데이터, 장비 가동 데이터, 인력 배치 데이터를 처리하여 자동화된 리포팅 및 최적화 가능실시간 데이터 파이프라인을 구축해 프로젝트 일정 변동을 빠르게 감지하고 대응할 수 있음필요한 기술SQL, Python: 데이터 저장 및 분석ETL 프로세스 구축: 일정 및 공정 데이터를 변환 ..

Schedule analyst 2025.02.28

데이터 애널리스트(Data Analyst)와 가까운 직군 순서

데이터를 분석하여 비즈니스 인사이트를 도출하는 역할이며1.  데이터 과학자 (Data Scientist) → 가장 가까움공통점: 데이터 분석, SQL, 데이터 시각화 사용차이점: 데이터 과학자는 머신러닝 및 고급 분석(예측 모델, AI)을 수행예제: 데이터 애널리스트가 매출 트렌드를 분석하면, 데이터 과학자는 AI를 활용해 매출 예측 모델을 만듦2.  데이터 엔지니어 (Data Engineer) → 데이터 처리 관련공통점: SQL, 데이터 관리, 데이터 파이프라인 구축 이해 필요차이점: 데이터 엔지니어는 데이터 저장, 변환, 배포 담당 (분석보다 인프라 구축에 집중)예제: 데이터 애널리스트가 보고서를 작성하려면, 데이터 엔지니어가 데이터를 정제해서 제공3.  비즈니스 애널리스트 (Business Anal..

IT 직군별 역할 정리

DevOps 엔지니어 (DevOps Engineer) (2010년대 초반) 목적: 개발(Development)과 운영(Operations)을 자동화하여 빠르고 안정적인 소프트웨어 배포핵심 업무CI/CD 구축 (자동화된 빌드, 테스트, 배포 파이프라인 관리)서버 및 클라우드 인프라 관리 (AWS, GCP, Azure 등)모니터링 및 로깅 시스템 운영 (Prometheus, Grafana, ELK 등)컨테이너 및 오케스트레이션 관리 (Docker, Kubernetes)보안 및 성능 최적화필요 기술: Linux, Shell Script, Git, Docker, Kubernetes, Terraform, Jenkins개발(Development)과 운영(Operations)을 자동화하고 최적화CI/CD 파이프라인..

[세미나]-테디노트 이경록님에게 듣는 생성형 AI 개발자 성장의 A to Z!

[현직자 세미나 참여 안내] 25년 2월 27일 목요일 오후 7시 30분 ~ 오후 9시테디노트 LLM, 모델 두분야로 나뉘다 저는 모델보다 Lang에 대해 미칠정도로 집중한 경력 (작년) 잡을 구하기 위해서는 한분야에 미친사람이 되는게 필요한거 같다. 이력서를 보면 안전장치들이 많다. (여러분야에 걸친) 필요한건 전문성이다. 내가 이분야가 맘에 들어 성장하고 싶으면 여러분야가 있다 세부적으로도 엄청 다양하다. 내가 하고 싶은것 또는 성장하고 싶은곳을 정해서 계속 그쪽으로 경력을 쌓아가는것이 필요할거 같다. 이력서에도 우리의 커리어 인생이 녹아있기 때문에 하나씩 완성해 나가면 좋겠다. 이력서 = 커리어 스토리만들자(내가 하는 프로그램을 하고 있지만 지금당장 하는게 좋다) 어떤 분야에 전문가로 성공하고 싶은..

Main Quest04 실습-3일차1st

3일차(2/26) : EDA와 feature engineering / 데이터 해석각 변수끼리의 상관관계 분석경향성, 패턴 등을 통해 인사이트 찾아내기인사이트를 통한 활용 방안 고민세운 가설을 시각화를 통해 증명하기진행 순서와 해야 할 일1. 변수 간 상관관계 분석해야 할 일:상관계수 행렬 계산:DataFrame의 corr() 메서드를 이용하여 변수 간의 상관계수를 산출합니다.히트맵 시각화:seaborn의 heatmap 함수를 사용하여 상관관계 행렬을 시각적으로 표현합니다.예제 코드:import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# (가정) 정제된 데이터셋: df# 상관계수 행렬 계산corr_matrix = df.corr()#..

Main Quest04 실습 2일차

2일차(2/25) : EDA와 feature engineering / 분석 전략 수립조별로 가설설정 해보기프로젝트 계획세우기(일별/시간별)데이터 전처리결측치 처리 방법 논의 / 결측치 채우기이상치 탐지2일차(2/25) : EDA와 feature engineering / 분석 전략 수립 - 조별로 가설설정 해보기 - 프로젝트 계획세우기(일별/시간별) - 데이터 전처리     - 결측치 처리 방법 논의 / 결측치 채우기     - 이상치 탐지팀회의록오늘은 팀원님 개인사정으로 부재중이나 프로젝트진행에 차질이 없도록 진행과정을 세부적으로 기록하여 금일 부재중으로 인한 영향이 없도록 하겠습니다. 금일 분석목표 작성필요 - 팀장 : 오늘 진행사항에 대해 오전에 전처리, 이상치 정리, 텍스트 소문자로 변경. 오후에 ..

Main Quest04 실습 1일차

아래 내용은 모두연 프로덕트 데이터분석가 1기 과정중 4일 동안 진행되는 Main Quest04 실습을 정리한 내용입니다따라서 출처는 모두연 PDA교육내용이며 제가 추가로 정리한 내용을 포함 합니다. (무단 배포와 사용은 저작권 침해에 대한 법적 조치가 따를 수 있습니다.)자 그럼 시작해 볼까요?1일차(2/24) : 팀 빌딩과 데이터 분석OT ( 10:10 ~ 10:30 )팀별 아이스브레이킹데이터 분석파일별 데이터 확인데이터 상세 내용 확인데이터셋 간 연계방안 고민분석 방향 논의(주제 선정)2일차(2/25) : EDA와 feature engineering / 분석 전략 수립조별로 가설설정 해보기프로젝트 계획세우기(일별/시간별)데이터 전처리결측치 처리 방법 논의 / 결측치 채우기이상치 탐지3일차(2/26)..

데이터 분석가 관련 영화

분석가들이 가장많이 나오는 영화 포스터엔 군인처럼 보이지만 직업은 회계사다. 잼있게 본영화인데 요즘은 쿠팡플레이 에서 무료로 볼수있어서 다시 봤다. 역시 분석은 중요하며 잼있는영화.시대는 AI가 자기 스스로 판단하고 인간과 대립하는 먼 미래이지만 그미래를 만드는 건 지금의 인간들이 아닌가 한다. 과연 어떤 미래를 설계하고 예측하게 될지 그건 현대를 살아가는 사람들의 숙제가 아닐까 한다.그만 큼 충격이 커서 그렇다고 생각하지만 너무 어느 특정분야에 분석가처럼 그일에 집중하다보면 다른것을 못 볼수 있다. 앞으로는 인간과 AI가 공존하는 세상에서 과거처럼 어느 특정분야에만 뛰어난 인물을 원하는 세상보다는 어쩌면 사소한것도 볼수 있는 그래서 데이터사이언티스트는 하드스킬과 소프트 스킬을 다 갖추어야 뛰어난 능력이..

베트남 커피

베트남 하이랜드커피는 1999년 베트남계 미국인 데이비드 타이가 설립한 베트남 최대 커피 프랜차이즈입니다. 2002년 하노이에 첫 매장을 열었고, 현재는 300개 이상의 매장을 보유한 베트남의 대표적인 커피 체인이 되었습니다.독특한 커피 문화•베트남 전통 추출 방식인 ‘핀(Phin)’ 드리퍼를 사용•로부스타 원두를 사용한 진한 맛의 커피 제공•대표 메뉴인 ’핀 수어다(Phin sua da)’는 연유와 얼음을 넣은 달콤한 아이스커피현지화 전략•베트남인의 입맛에 맞춘 메뉴 구성•주요 상업지구에 매장 위치•젊은 층을 위한 다양한 차(Tea) 음료와 과일 젤리 음료 출시가격과 메뉴•에스프레소, 핀커피, 스무디, 티 등 다양한 음료 제공•S, M, L 세 가지 사이즈로 제공•반미, 케이크 등 다양한 디저트 메뉴도..

여행 2025.02.23

오픽(OPIc)

1. 자기소개 (Introducing Oneself)자신에 대해 간단히 소개해주세요.당신의 직업이나 학업에 대해 이야기해주세요.평소 여가 시간에 무엇을 하는지 말해주세요.주말에 보통 무엇을 하는지 설명해주세요.가족 구성원에 대해 이야기해주세요.예상 질문Tell me a little bit about yourself and what you do for a living.Could you please introduce yourself and tell me where you live?What do you usually do in your free time?Can you describe your family and your relationship with them?Why are you taking the OPIc..

정보 2025.02.22

선형 회귀모델

선형 회귀모델의 기본 개념선형 회귀는 독립변수(x)와 종속변수(y) 간의 선형적 관계를 모델링하는 통계적 방법입니다.주요 유형1. 단순선형회귀수식: y = β₀ + β₁x + ε독립변수가 1개인 경우가장 기본적인 선형 회귀 모델주택 가격 예측 모델종속변수(y): 주택 가격독립변수(x): 주택 면적수식: 주택가격 = 5000만원 + 150만원×면적(평)학생 성적 예측 모델종속변수(y): 기말고사 점수독립변수(x): 공부 시간수식: 기말점수 = 40점 + 5점×공부시간(시간)월별 매출 예측 모델종속변수(y): 월 매출액독립변수(x): 광고 비용수식: 월매출 = 1000만원 + 2×광고비용2. 다중선형회귀수식: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε독립변수가 2개 이상인 경우여러 ..

비선형 회귀 모델

비선형 회귀 모델의 개념비선형 회귀는 독립변수와 종속변수 간의 관계가 곡선 형태를 띄는 경우 사용하는 분석 방법입니다.주요 비선형 회귀 모델 유형1. 로지스틱 회귀x축: 독립 변수 (입력 값)y축: 종속 변수 (확률, 0~1 범위)곡선은 0과 1 사이에서 변화하며, 특정 값을 기준으로 **두 개의 범주(예: 성공/실패, 참/거짓)**로 구분하는 역할을 합니다.중앙 부분에서 급격히 변하며, 이는 결정 경계(Decision Boundary)를 의미합니다.로지스틱 회귀는 분류 문제에서 이진 분류(예/아니오, 스팸/정상 등)를 수행할 때 자주 사용종속변수가 0과 1 사이의 확률값을 가질 때 사용S자 형태의 곡선 패턴 모델링주로 분류 문제에 활용주요 특징1. 수학적 구조시그모이드(로지스틱) 함수 사용: f(x) ..

회귀분석에서 연속형 종속변수를 예측하는 방법

회귀분석에서 연속형 종속변수를 예측하는 주요 방법들1. 선형 회귀 모델단순선형회귀: 독립변수가 1개인 경우다중선형회귀: 독립변수가 2개 이상인 경우다항회귀: 독립변수의 차수를 높여 비선형 관계를 모델링2. 비선형 회귀 모델로지스틱 회귀지수회귀로그회귀스플라인 회귀3. 정규화 기법을 적용한 회귀Ridge(L2 정규화)Lasso(L1 정규화)Elastic Net(L1+L2 정규화)4. 머신러닝 기반 회귀결정트리 회귀랜덤 포레스트 회귀XGBoost, LightGBM서포트 벡터 회귀(SVR)5. 딥러닝 기반 회귀인공신경망(ANN)순환신경망(RNN)합성곱신경망(CNN)각 방법은 데이터의 특성과 문제의 성격에 따라 선택적으로 사용된다.

회귀분석은 종속변수가 연속형일때 사용

회귀분석에서 연속형 종속변수란 실수(Real number)로 표현할 수 있는 값을 의미하며, 길이, 전류, 압력, 온도, 시간과 같이 연속적으로 측정 가능한 수치를 말합니다.이는 범주형 변수와는 다른데, 범주형 변수는 꽃잎의 수나 불량의 개수처럼 정수로만 표현되거나, 복막염 동반 여부처럼 이산적인 값을 가지는 경우를 말합니다. 회귀분석의 주요 특징은 다음과 같습니다:독립변수(x)와 종속변수(y) 사이의 관계를 수학적으로 모델링합니다.예측값이 연속형 숫자 값으로 나타납니다.데이터를 가장 잘 설명하는 최적의 회귀식을 찾는 것이 목적입니다.예를 들어, 아파트 가격 예측에서 가격은 연속형 종속변수이며, 이는 방의 개수, 아파트 크기, 주변 편의시설 등의 독립변수들에 의해 영향을 받습니다. 회귀분석에서 종속변수가..

확률과 통계

고등학교 확률과 통계는 사건의 경우의 수 계산 → 확률 분석 → 데이터의 특성 분석 → 통계적 검정의 흐름을 가집니다.ADsP 시험에서도 확률, 통계, 가설 검정이 핵심 개념이므로 이 기본기를 다지면 큰 도움이 됩니다.1. 경우의 수합의 법칙: 둘 이상의 사건 중 하나가 발생하는 경우 → 더하기곱의 법칙: 연속적으로 선택해야 하는 경우 → 곱하기순열(Permutation, P(n,r)P(n, r)P(n,r))서로 다른 nnn개 중 rrr개를 순서 있게 배열하는 방법공식: P(n,r)=n!(n−r)!P(n, r) = \frac{n!}{(n-r)!}P(n,r)=(n−r)!n!​조합(Combination, C(n,r)C(n, r)C(n,r))서로 다른 nnn개 중 rrr개를 순서 없이 선택하는 방법공식: C(..

300x250
SMALL