Data Science 5

평가 지표 #2 - Classification metric

도입 첫 번째 평가 지표 게시물인 Regression Metric에 이어 Classification metric 즉, 분류 평가 지표에 대해서 정리해보겠습니다. Confusion Matrix (혼동 행렬) 위 이미지에 분류 평가 지표의 대부분이 들어 있다고 보시면 됩니다. 주의 해야할것은 혼동행렬의 "행"에 해당하는것이 실제값, "열"에 해당하는것이 예측값입니다. 구글에 confusion matrix를 검색하면 행열이 바뀐 경우도 많이 있어 혼동을 피하기 위해서 본인의 Rule대로 Confusion matrix를 생각하는것을 추천드립니다. 각 칸의 의미 True Positive(TP) : 실제 True -> 예측 True (정답) "Positive(양성을 예측해서) True(맞췄다)" False Posi..

부스팅(Boosting)

도입 이번에는 앙상블 기법 중 하나인 부스팅에 대해서 정리해보려고 합니다. 캐글과 같은 대회에서 쉽게 접할 수 있는 많은 알고리즘이 부스팅 기반 알고리즘입니다. 그만큼 가장 핫하고 중요한 분야라고 할 수 있습니다. 수식은 최소화하고 글로만 정리하겠습니다 부스팅(Boosting) 부스팅은 한마디로 이전 모델에서 좋은 결과를 내지 못했으니 가중치를 주어서 성능을 높이는 방식입니다. 학창시절 수능 공부를 할 때 수학과 과학에는 강했지만 국어와 영어와 같은 언어과목에는 약했습니다. 이때, 국어와 영어에 더 가중치를 두어서 학습해서 전체 성적을 올리는 방법이 부스팅이라고 하면 비슷한 비유가 될 것 같습니다 ㅎㅎ 부스팅은 복원 샘플링을 통해 다수의 샘플 N개를 만들어서 순차적으로 학습합니다. 샘플 1에서 잘 분류하..

Titanic 데이터 분석하기 - 3 (Modeling and Evaluation)

[ADP대비, 데이터 분석 PT면접 대비] 학부시절부터 수도 없이 만났던 타이타닉 데이터, 주먹구구식으로 분석하지말고 Kaggle Kernel을 따라 차근차근 따라가보자. 참고 커널 https://www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com https://www.kaggle.com/startupsci/titanic-data-science-solutions Titanic Data ..

Titanic 데이터 파이썬으로 분석하기 - 2 (Data Cleaning, Feature Engineering)

[ADP대비, 데이터 분석 PT면접 대비] 학부시절부터 수도 없이 만났던 타이타닉 데이터, 주먹구구식으로 분석하지말고 Kaggle Kernel을 따라 차근차근 따라가보자. 참고 커널 https://www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com https://www.kaggle.com/startupsci/titanic-data-science-solutions Titanic Data ..

Titanic 데이터 파이썬으로 분석하기 - 1 (EDA)

[ADP대비, 데이터 분석 PT면접 대비] 학부시절부터 수도 없이 만났던 타이타닉 데이터, 주먹구구식으로 분석하지말고 Kaggle Kernel을 따라 차근차근 따라가보자. 참고 커널 https://www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com https://www.kaggle.com/startupsci/titanic-data-science-solutions Titanic Data ..