728x90
반응형

Intro to Machine Learning 6

Random Forest

1. Random Forest 특징 - 수많은 trees를 이용. 예측정확성이 single decision tree일 때보다 좋음 - parameter에 매우 민감. - 최대 트리 사이즈에 대해서 민감하지 않고 항상 좋은 예측을 하기에 좋음. 그 model은 single decision tree보다는 훨씬 나은 성능을 보여줍니다. 수많은 decision tree에 대해서 예측을 한 뒤 평균을 계산하니깐요. +) Intermediate Machine Learning: XGBoost - Introduction 참고 - wakaranaiyo.tistory.com/17 2. 예제 from sklearn.ensemble import RandomForestRegressor from sklearn.metrics im..

[Kaggle Courses] UnderFitting vs OverFitting

1. OverFitting -> deep tree 너무 세세하게 분류 기준을 세우니, 분류 집단 수가 너무 많아져, 정확도가 떨어짐 2. UnderFitting -> shallow tree 분류 기준을 너무 적게 잡으니, 분류 집단 수가 너무 적어서, 정확도가 떨어짐. 3. 각 모델의 예측 정확성 비교하기 MAE와 max_leaf_nodes의 값을 비교. max_leaf_nodes 입력인수: 최대 leaf의 수. leaf가 너무 많으면(node가 많아지면) overfitting -> model이 너무 sensible해짐 leaft가 너무 적으면 underfitting 이상적인 트리 사이즈란? MAE가 최소가 되는 트리 사이즈 # for-loop을 이용해서 최대 leaf(node) 수를 통하여 이상적인 트..

[Kaggle Courses] What is Model Validation (Evaluating)

Evaluating: 내가 만든 모델의 예측 정확성(predictive accuracy) 확인하기, 즉 모델의 퀄리티 요약하기 1. Evaluating의 한 가지 방법: MAE (Mean Absolute Error) 평균절대오차 error = actual - predicted from sklearn.metrics import mean_absolute_error predicted_data_y = data_model.predict(X) mean_absolute_error(y, predicted_data_y) 2. In-Sample Score의 문제점 -> 이 방법 쓰지 말자 In-Sample Score: train data로 predict을 하고 train data의 target data, 즉 목표값과 비교..

[Kaggle Courses] From Fitting to Prediction

1. Selecting Data for Modeling data = pd.read_csv( filename ) data.columns data = data.dropna(axis=0) - Selecting The Prediction Target: Dot-notation: 필요한 column 추출 prediction target(y) y = data.Price 2. Choosing "Features" (X) data_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude'] X = data[data_features] 3. Building My Model Define: model의 타입은?( 결정트리? 다른 거?) Fit: data의 패턴을..

[Kaggle Courses] Basic Data Exploration - Ex.MelbourneHomePrice

Prediction of New House Price in Melbourne¶ ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']에 따라 house의 Price가 어떻게 되는지 model을 만들자. In [6]: import pandas as pd #It has DataFrame(SQL) melbourne_file_path = r"C:\Users\32mou\Desktop\melb_data.csv\melb_data.csv" melbourne_data = pd.read_csv(melbourne_file_path) melbourne_data.describe() #Checking Missing Value is important Out[6]: Rooms P..

728x90
반응형