728x90
반응형

course 36

[Kaggle Course] Missing Values

missing values의 예시 1. 세번째 침대가 들어갈 공간이 부족한 두 침대로 꽉찬 방 2. 설문조사는 아마도 응답자의 소득을 알 수 없음. Missing Values를 다루는 세가지 방법 1. A Simple Option: Drop Columns with Missing Values missing values가 있는 column을 삭제한다. 대부분의 column이 missing value를 포함하지 않는다면 괜찮음. 100개 중 1개 정도라면 정확도에 크게 영향을 미치지 않음. !! 꼭 X_valid 데이터에서도 drop 해야 함 !! # Get names of columns with missing values cols_with_missing = [col for col in X_train.colu..

[Kaggle Course] Introduction

Learn to handle missing values, non-numeric values, data leakage and more. Your models will be more accurate and useful you will accelerate your machine learning expertise by learning how to: tackle data types often found in real-world datasets (missing values, categorical variables), design pipelines to improve the quality of your machine learning code, use advanced techniques for model validat..

Random Forest

1. Random Forest 특징 - 수많은 trees를 이용. 예측정확성이 single decision tree일 때보다 좋음 - parameter에 매우 민감. - 최대 트리 사이즈에 대해서 민감하지 않고 항상 좋은 예측을 하기에 좋음. 그 model은 single decision tree보다는 훨씬 나은 성능을 보여줍니다. 수많은 decision tree에 대해서 예측을 한 뒤 평균을 계산하니깐요. +) Intermediate Machine Learning: XGBoost - Introduction 참고 - wakaranaiyo.tistory.com/17 2. 예제 from sklearn.ensemble import RandomForestRegressor from sklearn.metrics im..

[Kaggle Courses] UnderFitting vs OverFitting

1. OverFitting -> deep tree 너무 세세하게 분류 기준을 세우니, 분류 집단 수가 너무 많아져, 정확도가 떨어짐 2. UnderFitting -> shallow tree 분류 기준을 너무 적게 잡으니, 분류 집단 수가 너무 적어서, 정확도가 떨어짐. 3. 각 모델의 예측 정확성 비교하기 MAE와 max_leaf_nodes의 값을 비교. max_leaf_nodes 입력인수: 최대 leaf의 수. leaf가 너무 많으면(node가 많아지면) overfitting -> model이 너무 sensible해짐 leaft가 너무 적으면 underfitting 이상적인 트리 사이즈란? MAE가 최소가 되는 트리 사이즈 # for-loop을 이용해서 최대 leaf(node) 수를 통하여 이상적인 트..

[Kaggle Courses] What is Model Validation (Evaluating)

Evaluating: 내가 만든 모델의 예측 정확성(predictive accuracy) 확인하기, 즉 모델의 퀄리티 요약하기 1. Evaluating의 한 가지 방법: MAE (Mean Absolute Error) 평균절대오차 error = actual - predicted from sklearn.metrics import mean_absolute_error predicted_data_y = data_model.predict(X) mean_absolute_error(y, predicted_data_y) 2. In-Sample Score의 문제점 -> 이 방법 쓰지 말자 In-Sample Score: train data로 predict을 하고 train data의 target data, 즉 목표값과 비교..

728x90
반응형