앙상블 2

부스팅(Boosting)

도입 이번에는 앙상블 기법 중 하나인 부스팅에 대해서 정리해보려고 합니다. 캐글과 같은 대회에서 쉽게 접할 수 있는 많은 알고리즘이 부스팅 기반 알고리즘입니다. 그만큼 가장 핫하고 중요한 분야라고 할 수 있습니다. 수식은 최소화하고 글로만 정리하겠습니다 부스팅(Boosting) 부스팅은 한마디로 이전 모델에서 좋은 결과를 내지 못했으니 가중치를 주어서 성능을 높이는 방식입니다. 학창시절 수능 공부를 할 때 수학과 과학에는 강했지만 국어와 영어와 같은 언어과목에는 약했습니다. 이때, 국어와 영어에 더 가중치를 두어서 학습해서 전체 성적을 올리는 방법이 부스팅이라고 하면 비슷한 비유가 될 것 같습니다 ㅎㅎ 부스팅은 복원 샘플링을 통해 다수의 샘플 N개를 만들어서 순차적으로 학습합니다. 샘플 1에서 잘 분류하..

Titanic 데이터 분석하기 - 3 (Modeling and Evaluation)

[ADP대비, 데이터 분석 PT면접 대비] 학부시절부터 수도 없이 만났던 타이타닉 데이터, 주먹구구식으로 분석하지말고 Kaggle Kernel을 따라 차근차근 따라가보자. 참고 커널 https://www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com https://www.kaggle.com/startupsci/titanic-data-science-solutions Titanic Data ..