머신러닝 4

부스팅(Boosting)

도입 이번에는 앙상블 기법 중 하나인 부스팅에 대해서 정리해보려고 합니다. 캐글과 같은 대회에서 쉽게 접할 수 있는 많은 알고리즘이 부스팅 기반 알고리즘입니다. 그만큼 가장 핫하고 중요한 분야라고 할 수 있습니다. 수식은 최소화하고 글로만 정리하겠습니다 부스팅(Boosting) 부스팅은 한마디로 이전 모델에서 좋은 결과를 내지 못했으니 가중치를 주어서 성능을 높이는 방식입니다. 학창시절 수능 공부를 할 때 수학과 과학에는 강했지만 국어와 영어와 같은 언어과목에는 약했습니다. 이때, 국어와 영어에 더 가중치를 두어서 학습해서 전체 성적을 올리는 방법이 부스팅이라고 하면 비슷한 비유가 될 것 같습니다 ㅎㅎ 부스팅은 복원 샘플링을 통해 다수의 샘플 N개를 만들어서 순차적으로 학습합니다. 샘플 1에서 잘 분류하..

RandomForest-랜덤포레스트

도입 제가 아는 한에서 RandomForest는 가장 가성비 좋은(?) ML 알고리즘입니다. 그렇게 복잡하지 않으면서 준수한 성능을낼 수 있고 이해하는데에도 큰 어려움이 없으면서 다른 복잡한 모델에 비해 Explainable합니다. RandomForest에 대해서 간단하게 알아보도록 하겠습니다. 앙상블 앙상블은 다른 모델들을 조합해 예측력을 향상시키는 것을 말합니다. 그리고 랜덤포레스트는 배깅 앙상블 기법입니다. 배깅 학교에서 데이터 마이닝을 수강하면서 Boostrap과 bagging을 접해 이해에 큰 어려움이 없었습니다. Bagging은 Boostrap Aggregating의 준말로 쉽게 말해 복원추출 기반의 Sampling 기법이라고 생각하면 됩니다. 위 이미지를 기반으로 설명해보자면, 1. D라는 ..

데이터 분석 취준생 스펙 정리 및 하반기 취준 후기

도입 데이터 분석 학사 취준생으로 스펙과 경험들을 정리해보고자합니다. 개인적인 정리 목적도 있고 관련 분야를 준비하시는 분들에게 공유하고자하는 목적도 있습니다. 읽으시는 분들에게 도움이 되었으면 좋겠습니다. 조언이나 궁금하신것 있으시면 편하게 댓글남겨주세요! 스펙 및 경험 간단 정리 공모전 및 인턴 각종 교내 프로젝트 - 통계학과 빅콘테스트 빅데이터포럼의장상(2017) 빅데이터 청년인재 프로그램 고려대학교 과정 수료 및 최종 프로젝트 한국데이터산업진흥원장상 수상(2019) 대구광역시 빅데이터 분석 프로젝트 학부 연구생(2019) 중소기업 인공지능 연구소 인턴 3개월(2020) AI Huinno Academy AI 기본과정 조교(2020) 교내 인공지능 대학원 계약직 5개월(2019.10 ~ 2020.02..

Titanic 데이터 분석하기 - 3 (Modeling and Evaluation)

[ADP대비, 데이터 분석 PT면접 대비] 학부시절부터 수도 없이 만났던 타이타닉 데이터, 주먹구구식으로 분석하지말고 Kaggle Kernel을 따라 차근차근 따라가보자. 참고 커널 https://www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com https://www.kaggle.com/startupsci/titanic-data-science-solutions Titanic Data ..