2025/03 73

세상에서 가장 쉬운 통계학 입문

세상에서 가장 쉬운 통계학 입문 (난이도: ★☆☆☆☆)복잡한 공식과 기호를 사용하지 않고, 사칙연산과 제곱, 루트 등 중학교 기초수학만으로 통계학의 기초를 확실히 다질 수 있도록 돕는 입문서입니다.출판사 : 지상사지음 : 고지마 히로유키 / 박주영 옮김표준, 표준편차, 분산 으로 시작한 통계학 입문 도서 마지막 장에는 카이제곱분포와 함께 t분포에 대해서 나온다.이와 같이 정규분포라고 알고 있는 모집단에서 소수의 관측 데이터로 그 모집단의 평균값인 모평균 을 구간추정하는 방법을 얻을 수 있다. 또한 이것은 표본평균과 표본표준편차라는 제1부의 처음에서 도입한 데이터 특성을 알기 위한 기본적인 통계량만을 사용해 왔기 때문에 안심할 수 있을 것입니다. 이것이 이 책의 목표점이자 통계학 초급의 수료 지점이다. 라..

데이터 시각화

[출처 : 구글데이터 애널리틱스 강의중]데이터 시각화를 계획하는 단계데이터 애널리스트가 이해관계자와 공유하기 위해 데이터 시각화를 만들어야 하는 실제 상황을 예로 들어 보겠습니다. 여러분이 의류 유통업체의 데이터 애널리스트라고 가정해 보겠습니다. 이 회사는 소규모 의류 매장의 재고 관리를 지원하며 매출이 호황을 누리고 있습니다. 어느 날, 회사에서 웹사이트를 대대적으로 업데이트할 준비를 하고 있다는 소식을 듣게 됩니다. 웹사이트 업데이트에 대한 결정을 내리기 위해 기존 웹사이트의 데이터와 판매 레코드를 분석하라는 요청을 받습니다. 수행할 수 있는 단계1단계: 데이터에서 패턴 탐색하기먼저 관리자나 데이터 소유자에게 현재 판매 레코드 및 웹사이트 애널리틱스 보고서에 대한 액세스 권한을 요청합니다. 여기에는 ..

Git을 사용 파일 복제(clone) 하기

!git clone https://github.com/Ukbang/Streamlit.git 명령어는 Git을 사용하여 원격 저장소에 있는 프로젝트를 현재 Colab 환경으로 복제(clone)하는 역할을 합니다. !Colab 셀에서 !는 셸 명령어를 실행할 수 있도록 해줍니다. 즉, Python 코드가 아니라 터미널 명령어를 실행하는 것입니다.git clone이 명령은 Git 저장소를 복제하는 명령어입니다. 원격 저장소의 파일들과 폴더 구조를 그대로 로컬(Colab 환경)로 가져옵니다.예를 들어 https://github.com/sample/Streamlit.git복제할 GitHub 저장소의 URL입니다. 이 URL에 있는 저장소 전체가 복제됩니다.실행 결과, 현재 작업 디렉토리(일반적으로 /content..

데이터 시각화, 태블로

목적 추천 차트 유형구성 요소 비율/비교(범주형) 누적 막대 차트두 변수 간 관계(연속형) 분산형(산점도) 차트누적 막대 차트(Stacked Bar Chart)는 두 변수 간의 관계를 나타내는 데는 적합하지 않습니다.정확한 이해를 위해, 다음과 같이 기억하세요:1. 누적 막대 차트의 주된 용도전체 대비 각 구성 요소의 비율(상대적 비중)을 시각화하는 데 사용됩니다.시간이나 그룹에 따른 비율의 변화나 구성요소 간 비교를 확인하는 데 효과적입니다.2. 두 변수 간 관계를 표현하는 데는 부적합한 이유누적 막대 차트는 한 변수의 세부 구성을 보여줄 뿐, 두 연속형 변수의 상관관계나 경향성을 나타낼 수 없습니다.두 변수의 상관관계를 명확히 보여주는 데는 **산점도(분산형 차트)**가 가장 적합합니다.3. 두 변수..

데브콘 : 삼월엔 Excel & Power BI 자동화

사무자동화라고 많이 이야기 들으셨을겁니다. BI 로 가는 요즘 트랜드에 맞추어 신선하게 들은 강의가 있어 소개 합니다.구인도 모집한다고 하니 관심있으신 분들은 아래를 참고하시기 바랍니다. https://rhodusanalytics.com/boards/19791/posts/305665/view 위임K-DEVCON 공식 이메일이메일주소info@k-devcon.comK-DEVCON은 IT 전문가 커뮤니티 그룹으로 이번 행사에 참여를 했습니다.아래는 행사 참가관련 내용 입니다.일시03월 20일(목) 20:00 ~ 21:00구글캘린더에 추가하기신청03월 10일(월) 00:00 ~ 03월 20일(목) 21:00비용무료장소온라인으로 진행하는 행사입니다.스트리밍기타안녕하세요, K-DEVCON 입니다. 3월 밋업의 테마..

정보 2025.03.20

백링크(Backlink)란?

백링크는 다른 웹사이트에서 특정 웹사이트로 연결된 링크를 의미한다. 즉, 다른 사이트에서 내 웹사이트로 링크를 걸어주는 것.예를 들어, A 사이트가 B 사이트의 글을 인용하면서 링크를 걸었다면, B 사이트는 A 사이트로부터 백링크를 받은 것이 된다백링크가 중요한 이유백링크는 검색엔진 최적화(SEO)와 웹사이트의 신뢰도를 높이는 데 핵심적인 역할을 한다.검색 엔진 최적화(SEO) 향상구글과 같은 검색 엔진은 백링크를 "추천"으로 간주한다.신뢰할 만한 사이트에서 많은 백링크를 받을수록 해당 사이트의 권위가 높다고 판단하여 검색 순위가 올라간다.웹사이트 신뢰도(Authority) 증가백링크를 많이 받은 웹사이트는 검색엔진이 "유용하고 신뢰할 만한 정보"를 제공한다고 인식한다.특히, 공신력 있는 기관(예: 대학..

정보 2025.03.20

데이터 시각화의 주요 단계

데이터 시각화는 여러 단계를 거쳐 이루어지는데, 크게 세 가지 주요 단계로 나눌 수 있다.1단계: 데이터 탐색 및 패턴 파악: 가장 먼저 할 일은 데이터를 자세히 살펴보고 숨겨진 패턴이나 특징을 찾아내는 것. 마치 탐정이 단서를 찾는 것처럼 데이터 속에 숨겨진 의미를 발掘하는 단계. 2단계: 시각화 계획: 어떤 종류의 그래프나 차트가 데이터를 가장 효과적으로 보여줄 수 있을지 결정하는 단계. 데이터의 특징과 분석 목표에 따라 적절한 시각화 도구를 선택해야 한다. 3단계: 시각화 생성 및 개선: 선택한 시각화 도구를 사용하여 실제로 그래프나 차트를 만들고, 필요에 따라 색상, 레이블, 범례 등을 수정하여 가독성을 높이는 단계. 이 단계들을 거치면서 데이터를 효과적으로 전달하고 이해를 돕는 시각화를 만들 수..

WHERE, ORDER BY 차이점

WHERE: 데이터를 걸러낸다 (필터링)특정 조건을 만족하는 데이터만 선택한다.예: "20살 이상인 사람만 보여줘"실행 시점: 데이터를 가져올 때 (SELECT 실행 전에 적용됨)ORDER BY: 데이터를 정렬한다 (정렬)데이터를 원하는 순서로 정렬한다.예: "나이가 많은 순으로 정렬해줘"실행 시점: 데이터를 가져온 후 (SELECT 실행 후 적용됨)예제원본 테이블 (students)idnameage1Alice222Bob193Charlie25WHERE 사용 예제sql복사편집SELECT * FROM students WHERE age >= 20;결과: 20살 이상만 가져옴idnameage1Alice223Charlie25ORDER BY 사용 예제sql복사편집SELECT * FROM students ORDER ..

주석표시(SQL, 파이썬, 구글코렙)

다양한 프로그래밍 환경에서 주석을 다르게 사용합니다. 아래는 SQL, Python, BigQuery, Google Colab 등에서 사용하는 주석 기호와 발음 방법을 정리한 것입니다.1. SQL (Structured Query Language)주석 기호: - (한 줄 주석), /* */ (여러 줄 주석)한글 발음:-- → "더블 대시"/* */ → "슬래시 스타, 스타 슬래시"예제sql 복사편집 -- 한 줄 주석입니다. SELECT * FROM users; /*    여러 줄 주석입니다.    이 쿼리는 모든 사용자를 조회합니다. */ SELECT * FROM users; 2. Python (파이썬)주석 기호: # (한 줄 주석), ''' ''' 또는 """ """ (여러 줄 주석)한글 발음:# → "샵..

추론통계

1. 가설검정 (Hypothesis Testing)출제빈도: ★★★★★ (매우 자주 출제됨)핵심 개념: 모집단의 특성을 표본을 통해 검정하는 방법(1) 기본 개념귀무가설 (H0) vs 대립가설 (H1)H1H_1H0H_01종 오류 (Type I Error) & 2종 오류 (Type II Error)유의수준 (α)과 검정력 (Power)α\alpha(2) 주요 가설검정 기법단일표본 Z-검정: 모집단의 평균이 특정 값과 같은지 검정단일표본 t-검정: 모집단의 분산이 알려지지 않았을 때 평균 검정독립표본 t-검정: 두 모집단의 평균 차이 검정대응표본 t-검정: 같은 집단의 전후 비교 (Before-After)카이제곱 검정: 범주형 변수 간 독립성 검정2. 신뢰구간 (Confidence Interval)출제빈도:..

빅분기 스터디 내용1

1과목: 빅데이터 분석기획① 빅데이터의 정의와 특징 (3V → 5V)3VVolume(규모): 데이터의 크기Variety(다양성): 정형, 비정형, 반정형 데이터Velocity(속도): 빠르게 생성되고 처리되는 데이터추가된 특성(5V): Veracity(신뢰성), Value(가치)암기 TIP: "빅데이터는 크고(Volume), 다양하며(Variety), 빠르고(Velocity), 신뢰할 수 있어야(Veracity), 가치(Value)를 창출한다."데이터 분석 프로세스(CRISP-DM) 6단계비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 배포암기 TIP: "비데준 모평배" (비즈니스 이해→데이터 이해→준비→모델링→평가→배포)빅데이터 기술구조 및 플랫폼하둡(Hadoop): HDFS(분산..

P-value vs Posterior Tail-Area Probability

1. P-value와 Posterior Tail-Area Probability 비교P-value (빈도주의적 접근)귀무가설 (H0H_0H0​)이 참이라고 가정할 때, 관측된 데이터보다 극단적인 값이 나올 확률. 아래와 같은 형태.빈도주의(Frequentist) 가설 검정에서 사용.Posterior Tail-Area Probability (베이지안 접근)사후 확률 분포에서 특정 값 이상(또는 이하)의 확률. 아래와 같은 형태. 베이지안 추론에서 사용되며, 사전 정보와 데이터로부터 업데이트된 확률을 기반으로 함2. 차이점P-value: 가설(귀무가설)이 참이라는 전제 하에서 데이터를 해석.Posterior Tail-Area Probability: 가설보다는 사후 확률 분포에서 특정 값이 차지하는 비율을 의미..

피어슨 상관계수 vs 스피어만 순위 상관계수

공통점두 변수 간의 상관 관계(연관성) 를 측정하는 방법이다.결과 값은 -1 ~ 1 사이이다.1: 완벽한 양의 상관-1: 완벽한 음의 상관0: 관계 없음1. 피어슨 상관계수 (Pearson Correlation Coefficient)특징연속형(수치) 데이터에서 사용두 변수 간의 직선적(선형) 관계를 측정평균과 표준편차를 이용하여 계산이상치(극단값)에 민감함사용 예시키와 몸무게의 관계온도와 아이스크림 판매량핵심 요약"정확한 수치 데이터에서 직선 관계를 분석할 때 사용"2. 스피어만 순위 상관계수 (Spearman Rank Correlation)특징순위(서열) 데이터에서 사용 (즉, 숫자의 크기가 아니라 순서가 중요할 때)두 변수 간의 비선형 관계(곡선적 관계)도 측정 가능데이터의 크기 차이보다는 순서(랭킹..

Streamlit 설치 순서 및 주의점

우선 필요한 설치관련 (안정성 기준) txt파일을 준비했습니다. (아래 파일을 다운받으시면 됩니다)1. base 환경으로 전환Anaconda Prompt를 열고 현재 활성화된 가상환경(pandas)을 비활성화합니다:conda deactivate프롬프트가 **(base)**로 변경되면 기본 환경으로 돌아왔음을 확인할 수 있습니다:(base) C:\\Users\\onesa> # 폴더주소는 개인마다 다름니다2. 새 가상환경 생성다음 명령어를 사용하여 Python 3.11 기반의 새로운 가상환경을 생성합니다:conda create --name streamlitenv python=3.11"Proceed ([y]/n)?"라는 메시지가 나오면 **y**를 입력하여 설치를 진행합니다.3. 새 가상환경 활성화생성된 가상..

Streamlit 란?

Streamlit은 데이터 과학 및 머신러닝 애플리케이션을 쉽게 만들고 배포할 수 있는 Python 라이브러리입니다.웹 개발 지식 없이도 Python 코드 몇 줄만으로 대화형 데이터 대시보드 및 웹 앱을 만들 수 있도록 도와줍니다.Streamlit의 주요 특징간단한 코드로 웹 애플리케이션 개발 가능HTML, CSS, JavaScript 같은 웹 기술을 몰라도, Python만 사용해서 웹 앱을 만들 수 있습니다.예를 들어, Pandas DataFrame을 쉽게 웹에서 표시할 수 있습니다.빠른 대시보드 제작Streamlit은 데이터 분석 결과를 빠르게 시각화할 수 있도록 지원합니다.Matplotlib, Plotly, Altair 같은 라이브러리와 쉽게 연동됩니다.대화형 UI 제공st.button(), st...

빅분기 계산문제

1. 결측치 처리 문제문제:근속연수 컬럼의 결측치를 부서와 성과등급별 평균값으로 대체하고, 결측치가 채워진 후 근속연수 컬럼을 정수형으로 변환하세요.풀이:부서와 성과등급별로 그룹화하여 평균값 계산:pythongroup = df.groupby(['부서', '성과등급'])['근속연수'].mean()결측값을 그룹별 평균값으로 대체:pythonnew_work_list = [] for index, value in enumerate(df['근속연수']): if pd.isna(value): *# 결측치 확인* buseo = df['부서'].iloc[index] sunggwa = df['성과등급'].iloc[index] new_work_list.append(group.loc[(buseo, sunggwa)]) else:..

Instacart Market Basket Analysis

고객 세그멘테이션이 필요한 이유고객 맞춤형 마케팅모든 고객에게 동일한 마케팅을 적용하는 것보다 각 고객 그룹의 특성에 맞춘 전략을 수립하는 것이 효과적예: VIP 고객에게 더 많은 혜택 제공, 신규 고객에게 할인 쿠폰 제공고객 행동 패턴 분석고객이 언제, 무엇을, 얼마나 자주 구매하는지에 따라 그룹을 나누어 더 깊은 인사이트를 얻을 수 있음비용 절감 & 마케팅 효율성 증가마케팅 비용을 모든 고객에게 동일하게 투입하는 것보다 타겟팅된 그룹에 집중 투자하면 비용 대비 효과가 높아짐수익 극대화특정 그룹(예: 높은 지출을 하는 고객)에게 맞춘 전략을 제공하여 매출 증대1. 해결하려는 목적?재구매 패턴 파악: 고객이 특정 제품을 얼마나 자주 재구매하는지 분석하여 마케팅 전략을 최적화연관 상품 추천: 고객이 자주 ..

데이터 분석 단계

데이터 분석 단계 데이터 분석 과정의 각 단계(질문, 준비, 처리, 분석, 공유, 실행)는 데이터에서 의미 있는 인사이트를 추출하는 데 중요한 역할을 합니다. 올바른 질문부터 정보에 기반한 조치에 이르기까지 각 단계를 탐색하면서 데이터의 진정한 힘을 활용할 수 있습니다.질문하기 단계성공적인 데이터 분석의 시작은 데이터 애널리스트입니다:이해관계자의 기대치를 완전히 이해하는 데 시간을 할애합니다해결해야 할 문제를 정의합니다문제 해결을 위해 어떤 질문에 답할지 결정합니다이해관계자의 기대치를 파악한다는 것은 이해관계자가 누구인지, 그들이 무엇을 원하는지, 언제 원하는지, 왜 원하는지, 그들과 가장 잘 소통하는 방법을 결정하는 것을 의미합니다. 문제를 정의한다는 것은 현재 상태를 살펴보고 이상적인 상태와 다른 점..

데이터 수명 주기 중 '분석' 단계

분석(Analyze) 단계 개요데이터 수명 주기의 중심 단계로, 수집된 데이터를 활용해 인사이트를 도출하는 과정이다.데이터 전처리가 완료된 후, 적절한 분석 기법을 적용하여 의미 있는 결론을 도출할 수 있다.분석 단계 주요 활동데이터 탐색(Exploratory Data Analysis, EDA)데이터를 시각화하고 분포, 패턴, 이상값을 파악하는 과정이다.히스토그램, 상자 그림(Box plot), 산점도 등을 활용할 수 있다.데이터 변환 및 특징 엔지니어링(Feature Engineering)분석 목적에 맞게 변수를 변환하거나 새로운 변수를 생성하는 과정이다.스케일링(Scaling), 정규화(Normalization), 원-핫 인코딩(One-Hot Encoding) 등의 기법을 사용할 수 있다.통계 분석 ..

BlockSite 크롬 확장 프로그램

BlockSite 크롬 확장 프로그램의 포커스 모드(Focus Mode)는 특정 시간 동안 집중력을 유지할 수 있도록 사이트 차단을 강화하는 기능이다.일반적인 사이트 차단 기능은 유료로 해야하고 이것과 비교했을 때, 포커스 모드는 무료로 할수있으며 Pomodoro 기법을 활용하여 일정한 작업 시간과 휴식 시간을 설정할 수 있다.포커스 모드의 주요 기능작업 시간 설정: 25분, 50분 등 원하는 시간 동안 특정 웹사이트(차단 목록에 등록한 사이트)에 접근할 수 없게 설정할 수 있다.휴식 시간 설정: 작업 시간이 끝난 후 5~10분 동안 사이트 차단이 해제되어 휴식을 취할 수 있다.자동 반복: 작업 시간과 휴식 시간이 반복되도록 설정하여 집중력을 유지할 수 있다.차단 강제 적용: 포커스 모드가 활성화되면, ..

정보 2025.03.11
300x250
SMALL