Violin Plot(바이올린 플롯) 설명
1. Violin Plot 개념
Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.
2. Violin Plot의 특징
- 밀도 곡선(KDE, Kernel Density Estimation)
- 데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.
- 분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.
- 중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)
- 그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.
- 폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다.
- 대칭성 확인 가능
- Violin Plot은 Box Plot과 다르게 데이터의 비대칭성(Skewness) 을 쉽게 확인할 수 있다.
- 예를 들어, 한쪽이 더 넓거나 길면 데이터가 한쪽으로 치우쳐 있음을 의미한다.
3. 예제 데이터 설명
위 그래프는 요일(day)별 결제 금액(total_bill) 의 분포를 보여준다.
- 각 요일별로 데이터의 분포가 다르게 나타난다.
- 일부 요일에서는 데이터가 좌우 대칭적으로 퍼져 있지만, 특정 요일은 한쪽이 더 넓거나 긴 형태를 띤다.
- 가장 넓은 부분이 데이터가 많은 구간을 의미한다.
- 예를 들어, 특정 요일의 결제 금액이 특정 구간에 몰려 있다면 해당 부분이 두꺼워진다.
- 중앙값이 상단 혹은 하단에 위치할 수 있다.
- 중앙값이 위쪽으로 치우쳐 있으면 높은 값들이 많고, 아래쪽이면 낮은 값들이 많음을 의미한다.
4. Violin Plot 활용
- 다양한 그룹의 데이터 비교
- 여러 요일별, 성별, 지역별 등의 데이터 분포를 한눈에 파악 가능하다.
- 데이터 분포 모양 확인
- Box Plot에서는 확인할 수 없는 세부적인 분포 형태를 알 수 있다.
- 이상치 탐색
- 특정 데이터 값이 극단적으로 높거나 낮으면 밀도 분포에서 확인 가능하다.
Violin Plot은 단순한 Box Plot보다 데이터의 분포와 밀도를 함께 표현하여 분석 시 유용한 시각화 도구이다
'데이터 분석가:Applied Data Analytics' 카테고리의 다른 글
Instacart Market Basket Analysis (0) | 2025.03.13 |
---|---|
kaggle Instacart Market Basket Analysis 프로젝트 (0) | 2025.03.10 |
선형대수학(Linear Algebra) 개요 (0) | 2025.03.10 |
빅데이터분석기사 25일 시험공부 계획 (0) | 2025.03.09 |
머신러닝 이해하기2 (분류) (0) | 2025.03.07 |