
데이터 시각화
- 패턴 및 관계 파악, 효과적인 의사 소통
- 추세 및 패턴 시각화
- 이상치 탐지
- 시각화를 통한 변수간 관계 파악
데이터 전처리
- PassengerID를 ‘_’로 나누어 첫번째 변수는 PassengerGrp, 두 번째는 ‘GrpNo’로 추가합니다.
- GrpNo는 정수형으로 형변환 합니다.

1. 바이올린 플롯(Viloin Plot)

특징
- 연속형 데이터의 분포와 사분위 통계 정보를 출력합니다.
- 박스 플롯과 커널 밀도 플롯이 결합한 형태의 출력물을 제공합니다.
- 범주형 데이터와 결합하여 차트를 구성할 수 있습니다.
- 이진형 변수와 결합하여 중심축을 기준으로 좌우를 구분하여 나타낼 수 있습니다.
- 범주형 변수를 축에 포함시켜, 수준별 바이올린 차트를 출력하도록 구성할 수 있습니다.
ex)
df_space의 Age를 바이올린 플롯으로 출력합니다.

ex)
df_space에서 중심축 좌우를 Transported로 구분하고 x축은 HomePlanet으로, y축은 Age로 하여 바이올린 플롯으로 출력합니다.

2. 줄기 잎 플롯 (Stem and Leaf Plot)
특징
- 데이터의 분포와 동시에 상세 값을 표시할 수 있습니다.
ex)
Stem and Leaf Plot을 이용하여 다음 데이터를 출력해봅니다.
data = np.array([21, 22, 22, 25, 28, 30, 33, 37, 37, 51, 54, 54, 55, 59])

3. 평행 좌표 그림 (Parallel Coordinates)

특징
- 다차원 데이터의 패턴이나 군집을 직관적으로 보여줍니다.
- 변수는 수직선으로 표현이 되고, 값은 수직선 위에 점으로 표시합니다.
- 동일 레코드에 수직선에 표시된 이웃점들을 선으로 연결하여 표시합니다.
- 색상이나 점의 모양으로 표본의 소속 군집을 표현합니다.
- 데이터가 너무 많으면 지나치게 많은 선들이 겹쳐지게 되어 파악이 어려워집니다.
- 효과적인 출력을 위한 변수의 출력 순서를 정하기 어렵습니다.
ex)
CryoSleep이 False인 행들에서 PassengerGrp과 HomePlanet별로 RoomService, FoodCourt, ShoppingMall, Spa, VRDeck의 합계를
내어 df_spend 데이터프레임을 만듭니다.
RoomService와 FoodCourt, ShoppingMall, Spa, VRDeck을 𝑙𝑜𝑔(𝑋+1) 변환하여, 변수의 폭을 줄여서 그래프로 출력이 용이하도록
합니다.
HomePlanet 별로 색상을 구분한 Parellel Coordindates를 출력합니다.


ex)
HomePlanet 별로 20개의 표본을 뽑아 출력해 봅니다.
