728x90
반응형

pandas 6

[Kaggle Course] Renaming & Combining (row, col)

column name과 index name을 바꿔야할 때 Pandas를 써봅시다. Renaming .rename( idx/col={ old: new, ... }) change index or colunm names to change the 'points' to 'score' col name to change 0 index name to 'firstEntry', 1 to 'secondEntry' 사실 위의 함수보단 set_index()를 쓰세요. column은 가끔, rows는 거의 이름을 바꿀 일이 없으니. .rename_axis( idx/col_name, axis='rows/columns') index와 column 동시에 자기들만의 이름을 갖도록 하고 싶을 때 사용. 저기서 쓴 idx_name, co..

[Kaggle Course] Data Types, Missing Values, Replace - Dtype

.dtype - dataframe, series 속 값들의 data type을 알려주는 함수 하나의 column 속 모든 값들의 data type price column은 실수형만 들어있음. index는 'int64' type 전체 dataframe의 모든 column에 대해서도 가능 'object type' : string으로 된 column은 특정 type으로 분류x +) Pandas는 categorical data, timeseries data에 대해서도 분류할 줄 알지만, 그건 다음 튜토리얼에서. .astype('~~') - 해당 column의 전체 값들에 대해서 원하는 data type으로 바꾸기 price column의 'int64' type을 'float64'로 바꿔버림 Missing dat..

[Kaggle Course] Grouping and Sorting - groupby()

!! 결과화면이 검은색 -> Series, 아니고 표 -> DataFrame Groupwise analysis value_counts()와 같은 기능을 하도록 groupby()를 응용해보겠습니다. value_count()함수의 축약형이라 봐도 무방합니다. point() column을 콕 집어서 각 원소가 몇 개씩 들어있는지 보는 거죠. df.groupby('col_name').col_name.count() == reviews.groupby('points').size() grouping한 결과에 summary function을 사용해도 됩니다. 각 점수마다 가장 싼 와인을 보기 위해, 'points' column으로 grouping 한 뒤 price column의 값으로 계산했습니다. 여러 개의 group..

[Kaggle Course] Summary Functions and Maps

1. Sumary functions - .describe() - 주어진 column의 특성을 요약 - .mean() - numerical value로 구성된 column의 평균 - .median() - numerical value로 구성된 column의 중앙값 - .unique() - 해당 column에 들어있는 모든 값을, 수에 상관없이 하나씩, list 형식으로 모아서 어떤 회사/국가만 데이터에 입력되어 있는지 확인할 때 유용. - .value_counts() - 내림차순으로 각 value가 몇 개씩 들어있는지 반환 와인을 마신 사람마다 몇 개의 리뷰를 달았는지, row를 가지는지 확인할 때 유용 2. Maps and Apply 'Map'이란 수학에서 가져온 용어로, 하나의 집합을 가져오는 함수를 의..

[Kaggle Course] Indexing, Selecting & Assigning

1. Key-indexing by Dictionary of Python 오른쪽 하단 사진을 보면 알다시피, reviews.country로 해도 됨 (dataframe_name.column_name) 2. Indexing in Pandas iloc~ index - dataset을 여러개의 리스트, 즉 큰 matrix로 다루어야할 때 사용, - 해당 값의 인덱스 위치 값을 알 때 사용, - 차이점: python stdlib indexing scheme을 사용하므로, 0:10을 넣으면 0~9까지 총 10개만. loc~Categorical of float numbers - column_name(indices)를 이용하여 값에 접근 - 차이점: 0:10을 넣으면 0~10 총 11개를 선택함. 이름으로 접근하니깐...

[Kaggle Course] Creating, Reading and Saving

import pandas as pd 1. Creating data 이제부터 DataFrame과 Series에 대해서 알아보겠습니다. 이 둘은 긴밀히 연관되어 있습니다. Series 여러 개를 붙혀서 한 다발로 만들면 DataFrame이 된다고 생각해도 좋습니다. Type 1. DataFrame == Table 각 cell(entry)마다 특정한 값을 가지는 배열 pd.DataFrame() 생성자로 DataFrame 객체를 만듦 딕셔너리를 입력. key == column_name, value == list_type (element of the list will be a each entry's value) row label은 자동적으로 index가 되어 0부터 시작. 'index' parameter를 생성자..

728x90
반응형