부스팅 2

XGBoost, LightGBM, CatBoost 정리 및 비교

도입 Kaggle을 비롯한 데이터 경진대회 플랫폼에서 항상 상위권을 차지하는 알고리즘 XGBoost, LightGBM, CatBoost에 대해 정리하고 차이점을 비교해보고자 합니다. 세 알고리즘은 모두 Gradient Boosting기반의 Machine Learning 기법으로, XGBoost(2014년), LightGBM(2016년), CatBoost(2017년)에 Inital release되었습니다. 물론 initial release시기가 이럴 뿐 실제로 사람들이 많이 사용하기 시작한 시기는 알고리즘 모두 Initial release 기준으로 살짝 뒤로 밀려있다고 보여집니다. 알고리즘을 하나씩 정리하면서 차이점을 비교분석 해보겠습니다! XGBoost XGBoost는 기본적으로 GBM과 같이 decis..

부스팅(Boosting)

도입 이번에는 앙상블 기법 중 하나인 부스팅에 대해서 정리해보려고 합니다. 캐글과 같은 대회에서 쉽게 접할 수 있는 많은 알고리즘이 부스팅 기반 알고리즘입니다. 그만큼 가장 핫하고 중요한 분야라고 할 수 있습니다. 수식은 최소화하고 글로만 정리하겠습니다 부스팅(Boosting) 부스팅은 한마디로 이전 모델에서 좋은 결과를 내지 못했으니 가중치를 주어서 성능을 높이는 방식입니다. 학창시절 수능 공부를 할 때 수학과 과학에는 강했지만 국어와 영어와 같은 언어과목에는 약했습니다. 이때, 국어와 영어에 더 가중치를 두어서 학습해서 전체 성적을 올리는 방법이 부스팅이라고 하면 비슷한 비유가 될 것 같습니다 ㅎㅎ 부스팅은 복원 샘플링을 통해 다수의 샘플 N개를 만들어서 순차적으로 학습합니다. 샘플 1에서 잘 분류하..