이 튜토리얼에서는 당신만의 dataset을 다루는 방법에 대해서 배우게 될 것입니다.
그리고 당신이 원하는 대로 style하여 데이터 시각화하는 것까지 해볼 것입니다.
Kaggle Datasets
여기엔 매일 새로운 dataset이 올라옵니다. csv도 포함하여, 파일 종류도 다양합니다.
그러나 낯선 파일 type도 많아요. 이를 테면, JSON, SQLite, BigQuery 등.
아직 우린 csv type만 다루어봤으니 그 중에서 csv type의 dataset을 선택하세요
특정 dataset을 찾고 싶다면 검색창에 입력하세요. 만화책 등장인물에 관심이 많다면, 'comic'이라고 쳐보는 거죠.
여기선 사진 속 dataset을 쓰겠습니다. 3개의 csv file과 다른 file도 있다고 ㅏ네요.
www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset
보통 README.md가 먼저 나옵니다.
파일이 어떻게 생겼는지 보기위해 두 csv 파일 중 하나를 클릭해서 살펴봅시다.
아직 감이 와닿지 않는다면, 정보들이 낯설다면 Discussion 탭을 보세요
Discussion 탭은 사람들이 dataset을 이해하기 위해 의논하는 내용이 담겨있습니다.
How to Upload my dataset on Kaggle
kaggle dataset platform은 tabular data, 즉 2차원 표 데이터면 자동적으로 CSV로 변환해주는 기능이 있어요
그러니 구글 스프레드시트이건 엑셀이건 상관없이 올리기만 하면 csv file로 바꿔줍니다.
Exercise
Setup
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
print("Setup Complete")
# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.data_viz_to_coder.ex7 import *
print("Setup Complete")
1. Attach a dataset to the notebook
새로운 notebook에서 File -> Add or upload data -> [Search] -> Add (dataset you want)
2. Specify the filepath
dataset의 경로를 가져오는 방법은 오른쪽 상단 왼쪽 화살표를 눌러보면, 슬라이드 창이 나오며,
첫번째 항목으로 Data가 나오며 그 중 원하는 파일의 경로를 복사하면 됨.
dc_path = "../input/fivethirtyeight-comic-characters-dataset/dc-wikia-data.csv"
mv_path = "../input/fivethirtyeight-comic-characters-dataset/marvel-wikia-data.csv"
3. Load the data
dc_data = pd.read_csv(dc_path)
mv_data = pd.read_csv(mv_path)
dc_data.head()
#mv_data.head()
4. Visualize the data
You had learned how to visualize the data during 'Data-visualiztion' course.
This tutorial is just helping you to add dataset on Notebook.
Good Luck to be a data scientist!
'Machine Learning > [Kaggle Course] Data Visualization' 카테고리의 다른 글
[Kaggle Course] Creating, Reading and Saving (0) | 2020.11.18 |
---|---|
Certificate - Data Visualization (0) | 2020.11.18 |
[Kaggle Course] Choosing Plot Types and Custom Styles (0) | 2020.11.16 |
[Kaggle Course] Distributions (histogram + density plots[KDE]) (0) | 2020.11.16 |
[Kaggle Course] Scatter Plots (0) | 2020.11.15 |