728x90
반응형

data visualization 7

[Kaggle Course] Add data on myNoteBook + (Download/Upload data on Kaggle)

이 튜토리얼에서는 당신만의 dataset을 다루는 방법에 대해서 배우게 될 것입니다. 그리고 당신이 원하는 대로 style하여 데이터 시각화하는 것까지 해볼 것입니다. Kaggle Datasets Find Open Datasets and Machine Learning Projects | Kaggle Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion. www.kaggle.com 여기엔 매일 새로운 dataset이 올라옵니다. csv도 포..

[Kaggle Course] Choosing Plot Types and Custom Styles

Plot Type 선택 전 고려할 사항 Trends == parttern of change(변화의추이를보고싶을때) sns.lineplot Line charts는 일정 기간 동안의 추세를 보여줄 때 적합. 여러 line을 그려서 둘 이상의 그룹에서도 추세를 보여줄 수 있음. Relationship == data와 variables 사이의 relationship 이해하기 sns.barplot Bar charts는 서로 다른 그룹이 공통적으로 갖는, 한 가지 물질의 양을 비교하기에 적합. sns.heatmap Heatmaps는 각 cell마다 수치와 color-coded pattern을 사용할 수 있다는 장점. sns.scatterplot Scatter plots은 연속적인(continuous) 두 변수 사이..

[Kaggle Course] Distributions (histogram + density plots[KDE])

Load and examine the data 이번 시간에는 150가지의 다른 꽃들에 대한 dataset을 볼 것이며, 50개씩으로 나누어 3등분하여 세 종류의 아이리스로 분류할 것입니다. 각 가로줄(row)는 각각의 꽃과 일치합니다. 여기엔 4가지의 측정값이 있는데요, sepal length와 width, 그리고 그에 따른 petal length와 width입니다. # Path of the file to read iris_filepath = "../input/iris.csv" # Read the file into a variable iris_data iris_data = pd.read_csv(iris_filepath, index_col="Id") # Print the first 5 rows of the..

[Kaggle Course] Scatter Plots

이번엔 보험료에 관한 dataset에 대해서 보려 합니다. 이 데이터를 이해하기 위해선 왜 몇몇 소비자들은 좀 더 지불하고 다른 이들은 그렇지 않은 지 알아야겠지요. 일단 dataset은 여기에. www.kaggle.com/mirichoi0218/insurance/home Medical Cost Personal Datasets Insurance Forecast by using Linear Regression www.kaggle.com Scatter plots sns.scatterplot x=data['column_name'] : 가로축 y=data['column_name'] : 세로축 sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'..

[Kaggle Course] Bar Charts, Heatmaps

이번 튜토리얼에서는 미국 교통부에서 제공하는 비행기 지연시간에 대한 dataset을 사용할 예정입니다. Excel에서 이 CSV 파일을 열면 매월(1 = 1월, 2 = 2월 등) 행과 각 항공사 코드에 대한 열이 표시됩니다. 각 cell은 항공사, 그리고 월별 분 단위의 평균 비행 지연 시간을 의미합니다. 음수로된 cell은, 일찍 도착한 경우가 많았음을 의미합니다. 예로, 1월에 American Airlines flight 항공사(AA)는대략 7분 정도 지연되었고, 4월에 Alaska Airline 항공사(AS)는 대략 3분 이르게 도착했습니다. Load the data # Path of the file to read flight_filepath = "../input/flight_delays.csv" ..

[Kaggle Course] Seaborn

1. Set up the notebook (matplotlib, seaborn, pands) import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete") 2. Load the data 이번 예제에서는 CSV로 저장된, 6개의 국가의 피파 랭킹 dataset을 이용합니다 (Argentina (ARG), Brazil (BRA), Spain (ESP), France (FRA), Germany (GER), and Italy (ITA)) # Path of the file to read f..

728x90
반응형