머신러닝 7

머신러닝 이해하기2 (분류)

1. 혼동행렬(Confusion Matrix)의 개념혼동행렬은 분류 모델이 얼마나 잘 예측했는지 확인하는 표 형태의 도구입니다.분류 결과를 실제값과 예측값에 따라 네 가지로 구분하여 표현합니다.구분예측 Positive (P)예측 Negative (N)실제 Positive (P)TP (True Positive, 진짜 양성)FN (False Negative, 가짜 음성)실제 Negative (N)FP (False Positive, 가짜 양성)TN (True Negative, 진짜 음성)TP: 실제로도 양성, 예측도 양성 (정답)TN: 실제로도 음성, 예측도 음성 (정답)FP: 실제로는 음성이나, 양성으로 잘못 예측한 경우 (오류)FN: 실제로는 양성이나, 음성으로 잘못 예측한 경우 (오류)2. 평가 지표의 ..

머신러닝 이해하기(분류)

1. 데이터 유형의 종류데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)로 구분된다. 이를 세분화하면 다음과 같다.1.1. 정형 데이터 (Structured Data)특징: 행과 열로 구성된 구조화된 데이터예시:관계형 데이터베이스 (MySQL, PostgreSQL)엑셀 스프레드시트로그 데이터 (웹사이트 방문 기록)1.2. 반정형 데이터 (Semi-structured Data)특징: 일정한 구조를 가지지만 완전히 정형화되지 않은 데이터예시:JSON, XML 파일NoSQL 데이터베이스 (MongoDB)이메일 본문 및 메타데이터1.3. 비정형 데이터 (Unstructured Data)특징: 정해진 구조 없이 다양한 형식으로 존재하는 데이터예시:텍스트 데..

신용거래 이상탐지 데이터 다루기

이번내용은 모두연 프로덕트데이터분석가1기 수료과정 중 과제를 참고하였습니다. 신용카드 이상감지 모델을 만들기 위한 데이터이며, is_fraud가 사기거래 여부를 나타내는 변수이다.최종적으로 사기거래 여부를 예측하기 위한 데이터를 준비해보는 실습입니다.사기거래 여부를 예측하는 데 불필요한 컬럼을 제거합니다.최소 2개 이상의 새로운 피처(변수)를 생성해봅시다.[힌트] 구매 금액, 시간 등의 변수를 이용할 수 있습니다.데이터의 위도/경도 정보를 활용해볼 수 있을까?통계적 관점으로 접근하여 유용한 변수를 만들어낼 수 있을까?평가문항상세기준1. 다수의 컬럼이름을 변경하고, 다양한 방법으로 결측치를 처리할 수 있는가?컬럼 이름의 변경이 명확하게 반영되어 있고, 다양한 방법으로 효과적인 결측치 처리를 진행할수 있는가..

Feature Engineering

1. Feature Engineering이란?Feature Engineering은 데이터에서 모델의 성능을 극대화할 수 있도록 특징(feature)을 변형, 생성, 선택하는 과정이다. 머신러닝 모델의 성능은 데이터의 질에 크게 의존하기 때문에, Feature Engineering은 매우 중요한 과정이다.2. Feature Engineering의 핵심 과정Feature Engineering은 보통 다음 4가지 과정으로 나뉜다.Feature 생성 (Feature Creation)원본 데이터에서 새로운 특징을 만들어냄예: 날짜 데이터를 기반으로 '연도', '월', '요일'을 추가Feature 변환 (Feature Transformation)데이터를 모델이 잘 이해할 수 있도록 변형예: 로그 변환, 스케일링 (..

데이터분석머신러닝-실습(k-Means, DBSCAN)

#군집 k-Means# 기본 라이브러리 불러오기import pandas as pdimport matplotlib.pyplot as plt'''[Step 1] 데이터 준비'''# Wholesale customers 데이터셋 가져오기 (출처: UCI ML Repository)uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\00292/Wholesale%20customers%20data.csv'df = pd.read_csv(uci_path, header=0)'''[Step 2] 데이터 탐색'''# 데이터 살펴보기df.head()# 데이터 자료형 확인df.info()RangeIndex: 440 entries, 0 to 439Data c..

데이터분석머신러닝-실습(KNN, SVM)

해당내용은 정보문화사 파이썬 머신러닝 판다스 데이터 분석 교재를 기준으로 했으며, 책 소개는 아래를 참고하시기 바랍니다. 데이터분석가 관련 도서 https://nesaram-health-1story.tistory.com/136 데이터 분석가 관련 추천도서데이터 분석가는 보고서작성, 시각화, 통찰력, 비즈니스/도메인 지식의 능력이 필요하다.여기서 비즈니스/도메인 지식은 특정 산업이나 회사의 주요 활동 영역에 대한 이해를 말하며, 쉽게 말해nesaram-health-1story.tistory.com# 기본 라이브러리 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns'''[Step 1] 데이터..

머신러닝 (Machine Learning), 딥러닝 (Deep Learning)

머신러닝 (Machine Learning)과 딥러닝 (Deep Learning)의 차이점과 관계1. 머신러닝 (Machine Learning)정의: 머신러닝은 데이터를 분석하고, 데이터를 기반으로 예측 모델을 만들거나, 패턴을 학습하는 알고리즘의 집합입니다. 인간이 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터를 통해 학습하고 스스로 결정을 내릴 수 있도록 하는 방법론입니다.핵심 개념:지도 학습 (Supervised Learning): 입력과 출력 데이터가 주어지면, 이 데이터를 바탕으로 모델을 학습시켜 새로운 입력에 대한 출력을 예측합니다.비지도 학습 (Unsupervised Learning): 출력 데이터 없이, 주어진 입력 데이터에서 패턴이나 구조를 찾아냅니다. 예를 들어, 군집화(clusteri..

300x250
SMALL