728x90
반응형

Machine Learning/[Kaggle Course] Feature Engineering 2

Mutual Information

새로운 데이터셋을 보면 당황스럽죠. 수천개의 feature를 설명 없이 해석하는 건 어렵습니다. 이럴 때, featrue utility metric으로 순위를 구성하면 좋습니다. 이 함수는 feature와 target 사이의 연관성을 측정해줍니다. 그 다음에 유용한 featrues를 모아 작은 set을 만듭니다. 이 metric은 "mutual information"이라고 부릅니다. 두 개 사이의 관계를 측정하는 상관관계입니다. 장점은, correlation은 오직 선형 관계만 감지하지만, 이 방법은 모든 종류의 관계를 감지합니다. 정리하여, mutual information은 모델이 사용하고 해석하기 쉽거나 계산 과정에서 효율성이 보이거나 이론적으로 잘 만들어졌거나 과적합을 예방하거나 모든 종류의 관계..

What is Feature Engineering

이번 코스에서 배우게 될 내용 어느 feature가 가장 중요한지 결정하는 방법 데이터를 바탕으로 새로운 feature를 만드는 방법 카테고리 변수를 고차원으로 암호화하는 방법 k-means clustering으로 features의 집단을 생성하는 방법 주요 성분을 분석하여 데이터셋의 변화를 features르 분해하는 방법 Feature Engineering의 목표 문제에 적합하게 데이터를 만드는 것입니다. 실제 온도가 아니라 열과 바람의 냉기같은 겉보기 온도를 한 번 봅시다. 이러한 단위들은 공기의 온도, 습도, 풍속을 기반으로 인간에게 감지되며 직접 측정 가능한 온도를 재려고 합니다. 모델의 예측 성능 향상시키기 필요한 계산량과 데이터 감소하기 결과의 해석 가능성 향상 Feature Engineeri..

728x90
반응형