[Kaggle Course] Creating, Reading and Saving

Machine Learning/[Kaggle Course] Data Visualization

[Kaggle Course] Creating, Reading and Saving

WakaraNai 2020. 11. 18. 01:03

728x90

import pandas as pd

1. Creating data

이제부터 DataFrame과 Series에 대해서 알아보겠습니다. 이 둘은 긴밀히 연관되어 있습니다.

Series 여러 개를 붙혀서 한 다발로 만들면 DataFrame이 된다고 생각해도 좋습니다.

Type 1. DataFrame == Table

각 cell(entry)마다 특정한 값을 가지는 배열
pd.DataFrame() 생성자로 DataFrame 객체를 만듦
딕셔너리를 입력. key == column_name, value == list_type (element of the list will be a each entry's value)
row label은 자동적으로 index가 되어 0부터 시작.
- 'index' parameter를 생성자에 넣어주면 다른 값들을 index로 쓸 수 있음.

DataFrame은 숫자 외에 문자열도 넣을 수 있음. 더불어 index도 원하는대로 지정 가능

Type 2. Series == List

A sequence of data values
사실은, list를 그대로 사용해도 되긴해요.
그 관점으로 본다면, Series는 DataFrame의 a column입니다.
'index' parameter를 사용하여 row_label을 지정한 것처럼,
- 동일한 방식으로, 해당 column의 값을 Series에 저장할 수 있습니다.
- 그러나 Series에는 column 이름은 저장할 수 없으며, 오직 전체 이름(변수이름)만 가집니다.

'index' parameter를 사용하여 row_label을 지정한 것처럼, 동일한 방식으로, 해당 column의 값을 Series에 저장할 수 있습니다.

2. Reading data files

보통 CSV 파일이 많은데요. 이는 Comma-Separated Values의 약자입니다.

해당 타입의 파일을 읽는 방법은 다음과 같습니다.

wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col = 0)
wine_reviews.shape # returns (len(row), len(column))
wine_reviews.head()

DataFrame에 shape 필드 변수를 적용하면 data의 크기에 대해 알 수 있습니다.

>>> return (몇 개의 기록이 들어있는지, 이들이 몇 개의 column으로 나누어졌는지)

괄호 안의 두 숫자를 곱하면 해당 dataset의 총 entries 수가 나오겠네요.

더불어 항상 파일 내용을 조사하기 전에는 .head()를 꼭 써서 봅시다.

pd.read_csv()에는 30개의 parameter가 존재합니다.

pandas가 처음부터 새로운 column을 만드는 대신,

해당 column을 index으로 쓰게 하려면 'index_col' parameter로 지정합니다.

3. Save data(DataFrame) file to CSV

animals = pd.DataFrame({'Cows': [12, 20], 'Goats': [22, 19]}, index=['Year 1', 'Year 2'])
animals.to_csv("cows_and_goats.csv")

Exercise

728x90

저작자표시 비영리 동일조건

'Machine Learning > [Kaggle Course] Data Visualization' 카테고리의 다른 글

[Kaggle Course] Summary Functions and Maps (0)	2020.11.19
[Kaggle Course] Indexing, Selecting & Assigning (0)	2020.11.18
Certificate - Data Visualization (0)	2020.11.18
[Kaggle Course] Add data on myNoteBook + (Download/Upload data on Kaggle) (0)	2020.11.18
[Kaggle Course] Choosing Plot Types and Custom Styles (0)	2020.11.16

현재글[Kaggle Course] Creating, Reading and Saving

250x250

Python, Intro to Machine Learning, 백준, Intermediate Machine Learning, cos, kaggle, 2급, data visualization, YBMIT, 머신러닝, 파이썬, cos pro, COSPro, datascience, 알고리즘, 너비우선탐색, cos pro 1급, Intro to DeepLearning, course, 데이터분석,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

WakaraNai