2025/02/18 3

데이터 정제 과정에서 사용하는 Pandas 메소드

1. 데이터 확인 및 기본 통계 .head() / .tail()데이터의 처음(head()) 또는 마지막(tail()) 몇 개의 행을 확인하는 메소드.예시 df.head(5) # 상위 5개 행 출력 df.tail(3) # 하위 3개 행 출력 활용데이터의 기본 구조 및 최근 데이터를 빠르게 확인. .describe()데이터의 기본적인 통계 정보(평균, 표준편차, 최소·최대값 등)를 요약하여 제공.예시 df.describe() 활용데이터의 분포를 빠르게 파악하고, 이상치를 탐색. .value_counts()범주형 데이터의 각 값이 몇 번 등장했는지 계산.예시 df['gender'].value_counts() 활용성별, 카테고리 등 그룹별 빈도 분석. .nunique() / .unique()nunique(): ..

5. Feature Engineering - 스피드 데이팅 데이터 다루기

이내용은 모두연의 프로덕트데이터분석가1기 교육 과정의 하나이며, 추후 복습 차원에서 정리한 내용입니다. Feature Engineering을 통해 주어진 데이터에서 추가적인 정보를 추출하고, 이를 아이디어와 파이썬 코드로 구현하는 방법.목표 :상황에 맞게 다양한 방법으로 데이터를 처리할 수 있다.주어진 데이터에서 추가적인 정보를 이끌어 낼 수 있다.요즘 나오는 머신러닝에서는 자동적으로 Feature Engineering을 해주는 경우도 있는데, 그런경우의 단점은 맥락과 상관없이 그냥 다양한 연산을 적용한다는거죠. 스피드 데이팅은 짧은 시간 동안 여러 명의 이성과 대화를 나누고, 서로 관심이 있는 경우 후속 만남을 가질 수 있도록 하는 만남의 방식입니다.진행 방식참가자들은 보통 한 장소에 모여 여러 명의 ..

Feature Engineering

1. Feature Engineering이란?Feature Engineering은 데이터에서 모델의 성능을 극대화할 수 있도록 특징(feature)을 변형, 생성, 선택하는 과정이다. 머신러닝 모델의 성능은 데이터의 질에 크게 의존하기 때문에, Feature Engineering은 매우 중요한 과정이다.2. Feature Engineering의 핵심 과정Feature Engineering은 보통 다음 4가지 과정으로 나뉜다.Feature 생성 (Feature Creation)원본 데이터에서 새로운 특징을 만들어냄예: 날짜 데이터를 기반으로 '연도', '월', '요일'을 추가Feature 변환 (Feature Transformation)데이터를 모델이 잘 이해할 수 있도록 변형예: 로그 변환, 스케일링 (..

300x250
SMALL