randomforest 2

RandomForest-랜덤포레스트

도입 제가 아는 한에서 RandomForest는 가장 가성비 좋은(?) ML 알고리즘입니다. 그렇게 복잡하지 않으면서 준수한 성능을낼 수 있고 이해하는데에도 큰 어려움이 없으면서 다른 복잡한 모델에 비해 Explainable합니다. RandomForest에 대해서 간단하게 알아보도록 하겠습니다. 앙상블 앙상블은 다른 모델들을 조합해 예측력을 향상시키는 것을 말합니다. 그리고 랜덤포레스트는 배깅 앙상블 기법입니다. 배깅 학교에서 데이터 마이닝을 수강하면서 Boostrap과 bagging을 접해 이해에 큰 어려움이 없었습니다. Bagging은 Boostrap Aggregating의 준말로 쉽게 말해 복원추출 기반의 Sampling 기법이라고 생각하면 됩니다. 위 이미지를 기반으로 설명해보자면, 1. D라는 ..

Decision Tree와 CART

도입 많은 Tree기반 분석 방법론의 기본 토대가 되는 의사결정나무(Decision Tree)와 대표적인 의사결정나무의 일종인 CART(Classification And Regression Tree)에 대해 정리해보고자 합니다. 이미지를 보면 간단하게 이해할 수 있습니다. 위 이미지의 데이터는 대표적인 분류 문제인 Titanic입니다. Decision Tree는 말그대로 변수들을 거치면서 단순하게 분류를 해나가는 것으로 볼 수 있습니다. - Is passenger Male? 은 루트노드 - Age