728x90
반응형

Machine Learning/[Kaggle Course] Data Visualization 14

[Kaggle Course] Renaming & Combining (row, col)

column name과 index name을 바꿔야할 때 Pandas를 써봅시다. Renaming .rename( idx/col={ old: new, ... }) change index or colunm names to change the 'points' to 'score' col name to change 0 index name to 'firstEntry', 1 to 'secondEntry' 사실 위의 함수보단 set_index()를 쓰세요. column은 가끔, rows는 거의 이름을 바꿀 일이 없으니. .rename_axis( idx/col_name, axis='rows/columns') index와 column 동시에 자기들만의 이름을 갖도록 하고 싶을 때 사용. 저기서 쓴 idx_name, co..

[Kaggle Course] Data Types, Missing Values, Replace - Dtype

.dtype - dataframe, series 속 값들의 data type을 알려주는 함수 하나의 column 속 모든 값들의 data type price column은 실수형만 들어있음. index는 'int64' type 전체 dataframe의 모든 column에 대해서도 가능 'object type' : string으로 된 column은 특정 type으로 분류x +) Pandas는 categorical data, timeseries data에 대해서도 분류할 줄 알지만, 그건 다음 튜토리얼에서. .astype('~~') - 해당 column의 전체 값들에 대해서 원하는 data type으로 바꾸기 price column의 'int64' type을 'float64'로 바꿔버림 Missing dat..

[Kaggle Course] Grouping and Sorting - groupby()

!! 결과화면이 검은색 -> Series, 아니고 표 -> DataFrame Groupwise analysis value_counts()와 같은 기능을 하도록 groupby()를 응용해보겠습니다. value_count()함수의 축약형이라 봐도 무방합니다. point() column을 콕 집어서 각 원소가 몇 개씩 들어있는지 보는 거죠. df.groupby('col_name').col_name.count() == reviews.groupby('points').size() grouping한 결과에 summary function을 사용해도 됩니다. 각 점수마다 가장 싼 와인을 보기 위해, 'points' column으로 grouping 한 뒤 price column의 값으로 계산했습니다. 여러 개의 group..

[Kaggle Course] Summary Functions and Maps

1. Sumary functions - .describe() - 주어진 column의 특성을 요약 - .mean() - numerical value로 구성된 column의 평균 - .median() - numerical value로 구성된 column의 중앙값 - .unique() - 해당 column에 들어있는 모든 값을, 수에 상관없이 하나씩, list 형식으로 모아서 어떤 회사/국가만 데이터에 입력되어 있는지 확인할 때 유용. - .value_counts() - 내림차순으로 각 value가 몇 개씩 들어있는지 반환 와인을 마신 사람마다 몇 개의 리뷰를 달았는지, row를 가지는지 확인할 때 유용 2. Maps and Apply 'Map'이란 수학에서 가져온 용어로, 하나의 집합을 가져오는 함수를 의..

[Kaggle Course] Indexing, Selecting & Assigning

1. Key-indexing by Dictionary of Python 오른쪽 하단 사진을 보면 알다시피, reviews.country로 해도 됨 (dataframe_name.column_name) 2. Indexing in Pandas iloc~ index - dataset을 여러개의 리스트, 즉 큰 matrix로 다루어야할 때 사용, - 해당 값의 인덱스 위치 값을 알 때 사용, - 차이점: python stdlib indexing scheme을 사용하므로, 0:10을 넣으면 0~9까지 총 10개만. loc~Categorical of float numbers - column_name(indices)를 이용하여 값에 접근 - 차이점: 0:10을 넣으면 0~10 총 11개를 선택함. 이름으로 접근하니깐...

[Kaggle Course] Creating, Reading and Saving

import pandas as pd 1. Creating data 이제부터 DataFrame과 Series에 대해서 알아보겠습니다. 이 둘은 긴밀히 연관되어 있습니다. Series 여러 개를 붙혀서 한 다발로 만들면 DataFrame이 된다고 생각해도 좋습니다. Type 1. DataFrame == Table 각 cell(entry)마다 특정한 값을 가지는 배열 pd.DataFrame() 생성자로 DataFrame 객체를 만듦 딕셔너리를 입력. key == column_name, value == list_type (element of the list will be a each entry's value) row label은 자동적으로 index가 되어 0부터 시작. 'index' parameter를 생성자..

[Kaggle Course] Add data on myNoteBook + (Download/Upload data on Kaggle)

이 튜토리얼에서는 당신만의 dataset을 다루는 방법에 대해서 배우게 될 것입니다. 그리고 당신이 원하는 대로 style하여 데이터 시각화하는 것까지 해볼 것입니다. Kaggle Datasets Find Open Datasets and Machine Learning Projects | Kaggle Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion. www.kaggle.com 여기엔 매일 새로운 dataset이 올라옵니다. csv도 포..

[Kaggle Course] Choosing Plot Types and Custom Styles

Plot Type 선택 전 고려할 사항 Trends == parttern of change(변화의추이를보고싶을때) sns.lineplot Line charts는 일정 기간 동안의 추세를 보여줄 때 적합. 여러 line을 그려서 둘 이상의 그룹에서도 추세를 보여줄 수 있음. Relationship == data와 variables 사이의 relationship 이해하기 sns.barplot Bar charts는 서로 다른 그룹이 공통적으로 갖는, 한 가지 물질의 양을 비교하기에 적합. sns.heatmap Heatmaps는 각 cell마다 수치와 color-coded pattern을 사용할 수 있다는 장점. sns.scatterplot Scatter plots은 연속적인(continuous) 두 변수 사이..

[Kaggle Course] Distributions (histogram + density plots[KDE])

Load and examine the data 이번 시간에는 150가지의 다른 꽃들에 대한 dataset을 볼 것이며, 50개씩으로 나누어 3등분하여 세 종류의 아이리스로 분류할 것입니다. 각 가로줄(row)는 각각의 꽃과 일치합니다. 여기엔 4가지의 측정값이 있는데요, sepal length와 width, 그리고 그에 따른 petal length와 width입니다. # Path of the file to read iris_filepath = "../input/iris.csv" # Read the file into a variable iris_data iris_data = pd.read_csv(iris_filepath, index_col="Id") # Print the first 5 rows of the..

728x90
반응형