.dtype
- dataframe, series 속 값들의 data type을 알려주는 함수
![]() 하나의 column 속 모든 값들의 data type |
![]() index는 'int64' type |
![]() 전체 dataframe의 모든 column에 대해서도 가능 |
+) Pandas는 categorical data, timeseries data에 대해서도 분류할 줄 알지만, 그건 다음 튜토리얼에서.
.astype('~~')
- 해당 column의 전체 값들에 대해서 원하는 data type으로 바꾸기
![]() price column의 'int64' type을 'float64'로 바꿔버림 |
Missing data (NaN)
- NaN(not a number)는 항상 'float64' dtype로 분류하여, pandas가 인식할 수 있게 함.
그러므로 NaN entires를 찾고 싶다면,
df[pd.isnull(df.col)] 또는 pd.notnull()을 이용

해당 NaN 자리를 다른 값으로 채우고 싶다면,
.fillna('다른 값')를 사용

Replace( ) for values similar to missing values
NaN이 아닌, "Unknown", "Undisclosed","Invalid"와 같은 missing value와 비슷한 값들을 다뤄야할 때 유용.

Exercise
Q1. point column의 NaN 개수 찾기
# way1
n_missing_prices = len(reviews[reviews.price.isnull()])
# way2: boolean type으로 바뀌면, True is treated as 1 and False as 0이므로, sum()을 이용
n_missing_prices = reviews.price.isnull().sum()
# way3 = way2+way1
n_missing_prices = pd.isnull(reviews.price).sum()
Q2. 가장 많이 와인을 생산하는 지역(region)은?
'region_1' 필드에 값이 존재할 때마다 덧셈을 한 결과를 담은 Series를 생성하세요.
이 필드는 missing data이기도 하므로, missing data를 Unknown으로 replace하시고.
마지막에 내림차순으로 정렬해주세요.

'Machine Learning > [Kaggle Course] Data Visualization' 카테고리의 다른 글
[Kaggle Course] Renaming & Combining (row, col) (0) | 2020.11.26 |
---|---|
[Kaggle Course] Grouping and Sorting - groupby() (0) | 2020.11.26 |
[Kaggle Course] Summary Functions and Maps (0) | 2020.11.19 |
[Kaggle Course] Indexing, Selecting & Assigning (0) | 2020.11.18 |
[Kaggle Course] Creating, Reading and Saving (0) | 2020.11.18 |