데이터 분석가:Applied Data Analytics

violinplot

데이터분석 2025. 3. 10. 14:58

Violin Plot(바이올린 플롯) 설명

1. Violin Plot 개념

Violin Plot(바이올린 플롯)은 Box Plot(박스 플롯)과 KDE Plot(커널 밀도 추정)을 결합한 그래프이다. 데이터의 분포와 중앙값을 동시에 보여주어 데이터의 전체적인 형태를 쉽게 파악할 수 있다.

2. Violin Plot의 특징

  1. 밀도 곡선(KDE, Kernel Density Estimation)
    • 데이터가 특정 값 주변에 얼마나 밀집되어 있는지 나타낸다.
    • 분포가 대칭적인지, 한쪽으로 치우쳐 있는지 등을 알 수 있다.
  2. 중앙값(Median) 및 사분위 범위(IQR, Interquartile Range)
    • 그래프의 중심에 표시된 선은 데이터의 중앙값을 나타낸다.
    • 폭이 좁으면 해당 구간에 데이터가 적고, 넓으면 데이터가 많음을 의미한다.
  3. 대칭성 확인 가능
    • Violin Plot은 Box Plot과 다르게 데이터의 비대칭성(Skewness) 을 쉽게 확인할 수 있다.
    • 예를 들어, 한쪽이 더 넓거나 길면 데이터가 한쪽으로 치우쳐 있음을 의미한다.

3. 예제 데이터 설명

위 그래프는 요일(day)별 결제 금액(total_bill) 의 분포를 보여준다.

  • 각 요일별로 데이터의 분포가 다르게 나타난다.
    • 일부 요일에서는 데이터가 좌우 대칭적으로 퍼져 있지만, 특정 요일은 한쪽이 더 넓거나 긴 형태를 띤다.
  • 가장 넓은 부분이 데이터가 많은 구간을 의미한다.
    • 예를 들어, 특정 요일의 결제 금액이 특정 구간에 몰려 있다면 해당 부분이 두꺼워진다.
  • 중앙값이 상단 혹은 하단에 위치할 수 있다.
    • 중앙값이 위쪽으로 치우쳐 있으면 높은 값들이 많고, 아래쪽이면 낮은 값들이 많음을 의미한다.

4. Violin Plot 활용

  1. 다양한 그룹의 데이터 비교
    • 여러 요일별, 성별, 지역별 등의 데이터 분포를 한눈에 파악 가능하다.
  2. 데이터 분포 모양 확인
    • Box Plot에서는 확인할 수 없는 세부적인 분포 형태를 알 수 있다.
  3. 이상치 탐색
    • 특정 데이터 값이 극단적으로 높거나 낮으면 밀도 분포에서 확인 가능하다.

Violin Plot은 단순한 Box Plot보다 데이터의 분포와 밀도를 함께 표현하여 분석 시 유용한 시각화 도구이다