Machine Learning/[Kaggle Course] Data Visualization

[Kaggle Course] Seaborn

WakaraNai 2020. 11. 2. 19:22
728x90
반응형

1. Set up the notebook (matplotlib, seaborn, pands)

import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
print("Setup Complete")

 

2. Load the data

이번 예제에서는 CSV로 저장된, 6개의 국가의 피파 랭킹 dataset을  이용합니다

(Argentina (ARG), Brazil (BRA), Spain (ESP), France (FRA), Germany (GER), and Italy (ITA))

# Path of the file to read
fifa_filepath = "../input/fifa.csv"

# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)

pd.read_csv() 매개변수 설명

  • file_path : location of file(dataset)
  • index_col="" : dataset을 불러올 때 첫번째 column(열)의 각 항목이 각각의 row(행)을 나타내도록 하려고 합니다. 이를 위해 index_col의 값을 첫 번째 column의 이름(Excel에서 셀 A1에 있는 문자)으로 설정합니다. 

 

  • parse_dates=True : notebook이 각 행의 label(값)을 날짜로 인식할 수 있도록 해줍니다. (data type에 숫자나 문자가 아닌 "날짜"라는 type이 있다는 소리)

 

3. Examine the data

꼭 시작 하기 전에 dataset을 가볍게 훑어봐야 합니다.

 

# Print the first 5 rows of the data
fifa_data.head()

 

 

4. Plot the data

앞으로 다양한 그래프 종류를 배울 것입니다. 가볍게 line chart 부터 해볼까요?

# Set the width and height of the figure
plt.figure(figsize=(16,6))

# Line chart showing how FIFA rankings evolved over time 
sns.lineplot(data=fifa_data)

 

이 그래프가 무엇을 의미하는지 아직 감이 오진 않지만, 앞으로의 코스를 따라오면 감이 잡히실 겁니다.

 

그래도 다음 질문을 한 번 고려해보세요.

dataset에 표시된 연도만 고려할 때, 1위를 적어도 5년 연속 차지한 국가는 어디인가요?

 

답은 브라질(BRA)만 해당합니다.

브라질은 1996-2000년에 가장 높은 순위를 유지하고 있네요.

다른 나라들은 1위가 된 뒤 몇 년간 그 자리를 유지하긴 하지만 적어도 5년 연속으로 유지하는 나라는 브라질뿐입니다.

728x90
반응형