Machine Learning/[Kaggle Course] Data Visualization

[Kaggle Course] Renaming & Combining (row, col)

WakaraNai 2020. 11. 26. 23:15
728x90
반응형

column name과 index name을 바꿔야할 때 Pandas를 써봅시다.

 

 

Renaming

.rename( idx/col={ old: new, ... }

change index or colunm names

to change the 'points' to 'score' col name

to change 0 index name to 'firstEntry', 1 to 'secondEntry'

 

사실 위의 함수보단 set_index()를 쓰세요. column은 가끔, rows는 거의 이름을 바꿀 일이 없으니.

 

 

.rename_axis( idx/col_name, axis='rows/columns') 

index와 column 동시에 자기들만의 이름을 갖도록 하고 싶을 때 사용.

저기서 쓴 idx_name, col_name은 전체 idx를 가리키는, 전체 col을 가리키는 색인이자 이름으로 사용가능

 

 

 

 

Combining

- merge()

join()보다 간단하므로 생략

 

- concat( [dataset_name, ...] )

dataset name이 들어간 리스트를 매개변수로

캐나다와 영국의 youtube dataset 합치기

 

- df.join(df, ...) 

서로 다른 DataFrame을 공통된 하나의 index에 맞추어 결합시킴.

lsuffix와 rsuffix는 두 dataset에서 같은 이름의 column이 있기에 꼭 필요함.

왼쪽 dataset의 column 이름에는 마지막에 꼭 _CAN을,

오른쪽 dataset의 column이름에는 마지막에 꼭 '_UK'를 붙여 어느 dataset의 column인지 구분

(이전에 해당 column 이름을 rename을 해서) 이름이 서로 같지 않다면 굳이 안 해도 됨.

그러나 각 dataset에 대해서 동일한 column name, 즉 unique key값으로 쓰일 수 있는 것으로 set_index()를 꼭 해주기

캐나다와 영국에서 같은 날 유행한 비디오를 찾으려면

 

 

728x90
반응형