데이터 사이언스 – 데이터 시각화


데이터 시각화

  • 패턴 및 관계 파악, 효과적인 의사 소통
  1. 추세 및 패턴 시각화
  2. 이상치 탐지
  3. 시각화를 통한 변수간 관계 파악

데이터 전처리

  1. PassengerID를 ‘_’로 나누어 첫번째 변수는 PassengerGrp, 두 번째는 ‘GrpNo’로 추가합니다.
  2. GrpNo는 정수형으로 형변환 합니다.


1. 바이올린 플롯(Viloin Plot)

특징

  1. 연속형 데이터의 분포와 사분위 통계 정보를 출력합니다.
  • 박스 플롯과 커널 밀도 플롯이 결합한 형태의 출력물을 제공합니다.
  1. 범주형 데이터와 결합하여 차트를 구성할 수 있습니다.
  • 이진형 변수와 결합하여 중심축을 기준으로 좌우를 구분하여 나타낼 수 있습니다.
  • 범주형 변수를 축에 포함시켜, 수준별 바이올린 차트를 출력하도록 구성할 수 있습니다.

ex)

df_space의 Age를 바이올린 플롯으로 출력합니다.

ex)

df_space에서 중심축 좌우를 Transported로 구분하고 x축은 HomePlanet으로, y축은 Age로 하여 바이올린 플롯으로 출력합니다.


2. 줄기 잎 플롯 (Stem and Leaf Plot)

특징

  • 데이터의 분포와 동시에 상세 값을 표시할 수 있습니다.

ex)

Stem and Leaf Plot을 이용하여 다음 데이터를 출력해봅니다.

data = np.array([21, 22, 22, 25, 28, 30, 33, 37, 37, 51, 54, 54, 55, 59])


3. 평행 좌표 그림 (Parallel Coordinates)

특징

  1. 다차원 데이터의 패턴이나 군집을 직관적으로 보여줍니다.
  • 변수는 수직선으로 표현이 되고, 값은 수직선 위에 점으로 표시합니다.
  • 동일 레코드에 수직선에 표시된 이웃점들을 선으로 연결하여 표시합니다.
  • 색상이나 점의 모양으로 표본의 소속 군집을 표현합니다.
  1. 데이터가 너무 많으면 지나치게 많은 선들이 겹쳐지게 되어 파악이 어려워집니다.
  2. 효과적인 출력을 위한 변수의 출력 순서를 정하기 어렵습니다.

ex)

CryoSleep이 False인 행들에서 PassengerGrp과 HomePlanet별로 RoomService, FoodCourt, ShoppingMall, Spa, VRDeck의 합계를

내어 df_spend 데이터프레임을 만듭니다.

RoomService와 FoodCourt, ShoppingMall, Spa, VRDeck을 𝑙𝑜𝑔(𝑋+1) 변환하여, 변수의 폭을 줄여서 그래프로 출력이 용이하도록

합니다.

HomePlanet 별로 색상을 구분한 Parellel Coordindates를 출력합니다.

ex)

HomePlanet 별로 20개의 표본을 뽑아 출력해 봅니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다