데이터 분석가:Applied Data Analytics

violinplot

데이터분석 2025. 3. 10. 14:58
320x100
728x90

Violin Plot(바이올린 플롯) 설명

1. Violin Plot 개념

Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.

2. Violin Plot의 특징

  1. 밀도 곡선(KDE, Kernel Density Estimation)
    • 데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.
    • 분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.
  2. 중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)
    • 그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.
    • 폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다.
  3. 대칭성 확인 가능
    • Violin Plot은 Box Plot과 다르게 데이터의 비대칭성(Skewness) 을 쉽게 확인할 수 있다.
    • 예를 들어, 한쪽이 더 넓거나 길면 데이터가 한쪽으로 치우쳐 있음을 의미한다.

3. 예제 데이터 설명

위 그래프는 요일(day)별 결제 금액(total_bill) 의 분포를 보여준다.

  • 각 요일별로 데이터의 분포가 다르게 나타난다.
    • 일부 요일에서는 데이터가 좌우 대칭적으로 퍼져 있지만, 특정 요일은 한쪽이 더 넓거나 긴 형태를 띤다.
  • 가장 넓은 부분이 데이터가 많은 구간을 의미한다.
    • 예를 들어, 특정 요일의 결제 금액이 특정 구간에 몰려 있다면 해당 부분이 두꺼워진다.
  • 중앙값이 상단 혹은 하단에 위치할 수 있다.
    • 중앙값이 위쪽으로 치우쳐 있으면 높은 값들이 많고, 아래쪽이면 낮은 값들이 많음을 의미한다.

4. Violin Plot 활용

  1. 다양한 그룹의 데이터 비교
    • 여러 요일별, 성별, 지역별 등의 데이터 분포를 한눈에 파악 가능하다.
  2. 데이터 분포 모양 확인
    • Box Plot에서는 확인할 수 없는 세부적인 분포 형태를 알 수 있다.
  3. 이상치 탐색
    • 특정 데이터 값이 극단적으로 높거나 낮으면 밀도 분포에서 확인 가능하다.

Violin Plot은 단순한 Box Plot보다 데이터의 분포와 밀도를 함께 표현하여 분석 시 유용한 시각화 도구이다