728x90
반응형

datascience 33

[Kaggle Course] Grouping and Sorting - groupby()

!! 결과화면이 검은색 -> Series, 아니고 표 -> DataFrame Groupwise analysis value_counts()와 같은 기능을 하도록 groupby()를 응용해보겠습니다. value_count()함수의 축약형이라 봐도 무방합니다. point() column을 콕 집어서 각 원소가 몇 개씩 들어있는지 보는 거죠. df.groupby('col_name').col_name.count() == reviews.groupby('points').size() grouping한 결과에 summary function을 사용해도 됩니다. 각 점수마다 가장 싼 와인을 보기 위해, 'points' column으로 grouping 한 뒤 price column의 값으로 계산했습니다. 여러 개의 group..

[Kaggle Course] Summary Functions and Maps

1. Sumary functions - .describe() - 주어진 column의 특성을 요약 - .mean() - numerical value로 구성된 column의 평균 - .median() - numerical value로 구성된 column의 중앙값 - .unique() - 해당 column에 들어있는 모든 값을, 수에 상관없이 하나씩, list 형식으로 모아서 어떤 회사/국가만 데이터에 입력되어 있는지 확인할 때 유용. - .value_counts() - 내림차순으로 각 value가 몇 개씩 들어있는지 반환 와인을 마신 사람마다 몇 개의 리뷰를 달았는지, row를 가지는지 확인할 때 유용 2. Maps and Apply 'Map'이란 수학에서 가져온 용어로, 하나의 집합을 가져오는 함수를 의..

[Kaggle Course] Indexing, Selecting & Assigning

1. Key-indexing by Dictionary of Python 오른쪽 하단 사진을 보면 알다시피, reviews.country로 해도 됨 (dataframe_name.column_name) 2. Indexing in Pandas iloc~ index - dataset을 여러개의 리스트, 즉 큰 matrix로 다루어야할 때 사용, - 해당 값의 인덱스 위치 값을 알 때 사용, - 차이점: python stdlib indexing scheme을 사용하므로, 0:10을 넣으면 0~9까지 총 10개만. loc~Categorical of float numbers - column_name(indices)를 이용하여 값에 접근 - 차이점: 0:10을 넣으면 0~10 총 11개를 선택함. 이름으로 접근하니깐...

[Kaggle Course] Creating, Reading and Saving

import pandas as pd 1. Creating data 이제부터 DataFrame과 Series에 대해서 알아보겠습니다. 이 둘은 긴밀히 연관되어 있습니다. Series 여러 개를 붙혀서 한 다발로 만들면 DataFrame이 된다고 생각해도 좋습니다. Type 1. DataFrame == Table 각 cell(entry)마다 특정한 값을 가지는 배열 pd.DataFrame() 생성자로 DataFrame 객체를 만듦 딕셔너리를 입력. key == column_name, value == list_type (element of the list will be a each entry's value) row label은 자동적으로 index가 되어 0부터 시작. 'index' parameter를 생성자..

[Kaggle Course] Add data on myNoteBook + (Download/Upload data on Kaggle)

이 튜토리얼에서는 당신만의 dataset을 다루는 방법에 대해서 배우게 될 것입니다. 그리고 당신이 원하는 대로 style하여 데이터 시각화하는 것까지 해볼 것입니다. Kaggle Datasets Find Open Datasets and Machine Learning Projects | Kaggle Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion. www.kaggle.com 여기엔 매일 새로운 dataset이 올라옵니다. csv도 포..

[Kaggle Course] Choosing Plot Types and Custom Styles

Plot Type 선택 전 고려할 사항 Trends == parttern of change(변화의추이를보고싶을때) sns.lineplot Line charts는 일정 기간 동안의 추세를 보여줄 때 적합. 여러 line을 그려서 둘 이상의 그룹에서도 추세를 보여줄 수 있음. Relationship == data와 variables 사이의 relationship 이해하기 sns.barplot Bar charts는 서로 다른 그룹이 공통적으로 갖는, 한 가지 물질의 양을 비교하기에 적합. sns.heatmap Heatmaps는 각 cell마다 수치와 color-coded pattern을 사용할 수 있다는 장점. sns.scatterplot Scatter plots은 연속적인(continuous) 두 변수 사이..

[Kaggle Course] Distributions (histogram + density plots[KDE])

Load and examine the data 이번 시간에는 150가지의 다른 꽃들에 대한 dataset을 볼 것이며, 50개씩으로 나누어 3등분하여 세 종류의 아이리스로 분류할 것입니다. 각 가로줄(row)는 각각의 꽃과 일치합니다. 여기엔 4가지의 측정값이 있는데요, sepal length와 width, 그리고 그에 따른 petal length와 width입니다. # Path of the file to read iris_filepath = "../input/iris.csv" # Read the file into a variable iris_data iris_data = pd.read_csv(iris_filepath, index_col="Id") # Print the first 5 rows of the..

[Kaggle Course] Scatter Plots

이번엔 보험료에 관한 dataset에 대해서 보려 합니다. 이 데이터를 이해하기 위해선 왜 몇몇 소비자들은 좀 더 지불하고 다른 이들은 그렇지 않은 지 알아야겠지요. 일단 dataset은 여기에. www.kaggle.com/mirichoi0218/insurance/home Medical Cost Personal Datasets Insurance Forecast by using Linear Regression www.kaggle.com Scatter plots sns.scatterplot x=data['column_name'] : 가로축 y=data['column_name'] : 세로축 sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'..

[Kaggle Course] Bar Charts, Heatmaps

이번 튜토리얼에서는 미국 교통부에서 제공하는 비행기 지연시간에 대한 dataset을 사용할 예정입니다. Excel에서 이 CSV 파일을 열면 매월(1 = 1월, 2 = 2월 등) 행과 각 항공사 코드에 대한 열이 표시됩니다. 각 cell은 항공사, 그리고 월별 분 단위의 평균 비행 지연 시간을 의미합니다. 음수로된 cell은, 일찍 도착한 경우가 많았음을 의미합니다. 예로, 1월에 American Airlines flight 항공사(AA)는대략 7분 정도 지연되었고, 4월에 Alaska Airline 항공사(AS)는 대략 3분 이르게 도착했습니다. Load the data # Path of the file to read flight_filepath = "../input/flight_delays.csv" ..

728x90
반응형