전체 글 33

블로그 활동 다시 시작하려고합니다.

댓글을 꽤 많이 남겨주셨는데, 취업하고 적응하고 하느라 한동안(이라고 하기엔 2년..) 블로그를 전혀 관리를 안해 답변을 못해드린점 죄송하게 생각합니다. 꼭 답변을 받으셔야하는 질문은 brackdog1@gmail.com 으로 해주시면 빠른 답변 해드리겠습니다. 은행에서 데이터분석 업무를 수행 하고 있고, 공부할내용 정리할겸 블로그활동 재개합니다. 많은 관심 부탁드리겠습니다 :)

21년 상반기 IBK기업은행 디지털 최종합격 후기

도입 2021상반기 취업준비 후기를 작성하면서 IBK기업은행 디지털 직무 준비과정을 조금 끄적였지만, 제가 온라인상에서 IBK 디지털 합격 후기를 찾아보기 쉽지않기도했고, 좀 더 디테일하게 따로 정리해놓고싶어 작성합니다. 질문은 댓글로 :) IBK기업은행 소개 IBK기업은행은 KDB산업은행, 수출입은행과 함께 대한민국 국책은행 중 하나입니다. 중소기업 지원을 목표로하고 있으며 1961년에 설립되었습니다. 여러 신문사에서 조사한 "취준생들이 가고싶어하는 금융기업"에서 3위이내에 자리를 꾸준히 차지하는 은행입니다. https://www.catch.co.kr/Comp/CompSummary/822167 중소기업은행 기업정보 - 연봉 9,414만원 | 캐치 기업의 모든 정보를 한 눈에. 사원수, 평균연봉, 이직률..

2021 상반기 취업준비 후기 및 합격 !

도입 제 블로그 취업준비 게시글에 관심을 가지고 찾아 주시고 연락을 주시는 분들이 많아, 2021상반기 취업준비 및 IBK기업은행 디지털 최종합격후기를 남깁니다. 은행권 디지털 준비 방향은 나중에 다른 게시글로 따로 작성해볼까 합니다. 궁금하신부분은 댓글로 부탁드립니다! 최종 결론은 젤 아래에 있으니 스펙이나 면접후기, 기업에 대한 인상이 안 궁금하신 분들은 제일 아래로! 스펙 및 경험 https://statinknu.tistory.com/27?category=883360 데이터 분석 취준생 스펙 정리 및 하반기 취준 후기 도입 데이터 분석 학사 취준생으로 스펙과 경험들을 정리해보고자합니다. 개인적인 정리 목적도 있고 관련 분야를 준비하시는 분들에게 공유하고자하는 목적도 있습니다. 읽으시는 분들에게 st..

MySQL Workbench Shortcuts(MySQL 단축키)

MySQL은 보편적으로 많이 사용되는 SQL 프로그램입니다. 원활한 사용을 위해 단축키 몇 개만 정리하겠습니다! - 한 줄 실행 (세미콜론으로 구분되는 쿼리 하나실행) Ctrl + Enter - 전체 실행 (현재 스크립트 전체 실행) Ctrl + Shift + Enter - 새로운 에디터 열기 Ctrl + T - 저장된 스크립트 파일 열기 Ctrl + Shift + O - 쿼리 정렬 Ctrl + B - Reverse Engineer Database Ctrl + R

평가 지표 #2 - Classification metric

도입 첫 번째 평가 지표 게시물인 Regression Metric에 이어 Classification metric 즉, 분류 평가 지표에 대해서 정리해보겠습니다. Confusion Matrix (혼동 행렬) 위 이미지에 분류 평가 지표의 대부분이 들어 있다고 보시면 됩니다. 주의 해야할것은 혼동행렬의 "행"에 해당하는것이 실제값, "열"에 해당하는것이 예측값입니다. 구글에 confusion matrix를 검색하면 행열이 바뀐 경우도 많이 있어 혼동을 피하기 위해서 본인의 Rule대로 Confusion matrix를 생각하는것을 추천드립니다. 각 칸의 의미 True Positive(TP) : 실제 True -> 예측 True (정답) "Positive(양성을 예측해서) True(맞췄다)" False Posi..

평가 지표 #1-Regression metric

도입 평가지표에 대해서 2개의 포스팅을 할 생각입니다! 학습은 학습대로 중요하지만 학습이 얼마나 잘 되었는지 테스트 데이터에 대해서 평가를 함으로써 모델의 실효성을 판단할 수 있습니다. 첫번째 포스팅에서는 Regression metric을, 두번째 포스팅에서는 Classification metric을 다루어보겠습니다! MSE (Mean Squared Error) 일반적으로 가장 많이 쓰이는 회귀에서 평가지표입니다. 실제값과 예측값의 차이 제곱의 평균입니다. MAE (Mean Absolute Error) 실제값과 예측값의 차이를 절댓값으로 변환해서 평균한것입니다. MSE와 MAE는 어떤 부분이 다를까요? 쉬운 예로, 0과 1사이의 값을 제곱한다고 해봅시다. 0.1을 제곱하면 0.01이 됩니다. 값이 점점 ..

XGBoost, LightGBM, CatBoost 정리 및 비교

도입 Kaggle을 비롯한 데이터 경진대회 플랫폼에서 항상 상위권을 차지하는 알고리즘 XGBoost, LightGBM, CatBoost에 대해 정리하고 차이점을 비교해보고자 합니다. 세 알고리즘은 모두 Gradient Boosting기반의 Machine Learning 기법으로, XGBoost(2014년), LightGBM(2016년), CatBoost(2017년)에 Inital release되었습니다. 물론 initial release시기가 이럴 뿐 실제로 사람들이 많이 사용하기 시작한 시기는 알고리즘 모두 Initial release 기준으로 살짝 뒤로 밀려있다고 보여집니다. 알고리즘을 하나씩 정리하면서 차이점을 비교분석 해보겠습니다! XGBoost XGBoost는 기본적으로 GBM과 같이 decis..

부스팅(Boosting)

도입 이번에는 앙상블 기법 중 하나인 부스팅에 대해서 정리해보려고 합니다. 캐글과 같은 대회에서 쉽게 접할 수 있는 많은 알고리즘이 부스팅 기반 알고리즘입니다. 그만큼 가장 핫하고 중요한 분야라고 할 수 있습니다. 수식은 최소화하고 글로만 정리하겠습니다 부스팅(Boosting) 부스팅은 한마디로 이전 모델에서 좋은 결과를 내지 못했으니 가중치를 주어서 성능을 높이는 방식입니다. 학창시절 수능 공부를 할 때 수학과 과학에는 강했지만 국어와 영어와 같은 언어과목에는 약했습니다. 이때, 국어와 영어에 더 가중치를 두어서 학습해서 전체 성적을 올리는 방법이 부스팅이라고 하면 비슷한 비유가 될 것 같습니다 ㅎㅎ 부스팅은 복원 샘플링을 통해 다수의 샘플 N개를 만들어서 순차적으로 학습합니다. 샘플 1에서 잘 분류하..

RandomForest-랜덤포레스트

도입 제가 아는 한에서 RandomForest는 가장 가성비 좋은(?) ML 알고리즘입니다. 그렇게 복잡하지 않으면서 준수한 성능을낼 수 있고 이해하는데에도 큰 어려움이 없으면서 다른 복잡한 모델에 비해 Explainable합니다. RandomForest에 대해서 간단하게 알아보도록 하겠습니다. 앙상블 앙상블은 다른 모델들을 조합해 예측력을 향상시키는 것을 말합니다. 그리고 랜덤포레스트는 배깅 앙상블 기법입니다. 배깅 학교에서 데이터 마이닝을 수강하면서 Boostrap과 bagging을 접해 이해에 큰 어려움이 없었습니다. Bagging은 Boostrap Aggregating의 준말로 쉽게 말해 복원추출 기반의 Sampling 기법이라고 생각하면 됩니다. 위 이미지를 기반으로 설명해보자면, 1. D라는 ..

Decision Tree와 CART

도입 많은 Tree기반 분석 방법론의 기본 토대가 되는 의사결정나무(Decision Tree)와 대표적인 의사결정나무의 일종인 CART(Classification And Regression Tree)에 대해 정리해보고자 합니다. 이미지를 보면 간단하게 이해할 수 있습니다. 위 이미지의 데이터는 대표적인 분류 문제인 Titanic입니다. Decision Tree는 말그대로 변수들을 거치면서 단순하게 분류를 해나가는 것으로 볼 수 있습니다. - Is passenger Male? 은 루트노드 - Age