데이터 사이언스 4

XGBoost, LightGBM, CatBoost 정리 및 비교

도입 Kaggle을 비롯한 데이터 경진대회 플랫폼에서 항상 상위권을 차지하는 알고리즘 XGBoost, LightGBM, CatBoost에 대해 정리하고 차이점을 비교해보고자 합니다. 세 알고리즘은 모두 Gradient Boosting기반의 Machine Learning 기법으로, XGBoost(2014년), LightGBM(2016년), CatBoost(2017년)에 Inital release되었습니다. 물론 initial release시기가 이럴 뿐 실제로 사람들이 많이 사용하기 시작한 시기는 알고리즘 모두 Initial release 기준으로 살짝 뒤로 밀려있다고 보여집니다. 알고리즘을 하나씩 정리하면서 차이점을 비교분석 해보겠습니다! XGBoost XGBoost는 기본적으로 GBM과 같이 decis..

CNN 모델의 발전 과정 #1

도입 ratsgo`s blog(ratsgo.github.io/deep%20learning/2017/10/09/CNNs/)와 dataplay.tistory.com/24, adeshpande3.github.io/adeshpande3.github.io/The-9-Deep-Learning-Papers-You-Need-To-Know-About.html 를 많이 참고하여 제가 아는 내용을 첨가해 정리하였습니다. 4. CNN 발전 (1) - Alexnet, GoogLeNet 1. CNN의 발전 CNN은 1990년대 Yann LeCun 교수가 발표한 이후, 발전을 많이 했습니다. 특히 2010년 초중반에 많은 발전이 있었습니다. Conv layer 자체에서 Convolution을 어떤식으로 진행할지를 고민하는 차 da..

CNN 기본 용어 및 개념 정리

작성동기 오늘은 CNN의 기본 용어와 개념을 정리해볼까합니다. 전에 인공지능과 관련된 인턴을 하면서, 이미지데이터를 많이 다루었음에도 불구하고 개념적으로 이해하지 못했었습니다. 특히, S사 면접에서 질문이 들어왔을때 동문서답을 면치못했던 트라우마가 강하게 남네요. 물론 저는 통계학 전공이라 학교에서 인공지능 관련된것을 제대로 배운적이 없지만, 그래도 인턴과 공모전 등에서 CNN을 포함한 딥러닝 모델 개발의 경험이 있었기때문에 뼈아팠습니다. 아무튼 겸사겸사 CNN내용을 정리해볼까 합니다. 도입 기본적인 DNN모델은 "지역성"을 가져올수가 없습니다. 아래 MNIST데이터를 한번 예시로 들어보죠! MNIST는 대표적인 이미지 분류 문제이며, 0~9까지의 손글씨 이미지를 분류하는것이 목적입니다. 일반적인 DNN..

DNN(Deep Neural Net)의 전체적인 Flow

매번 수박 겉핥기 식으로 딥러닝 공부를 하고, 또 코드를 긁어서 쓰는 수준에 그쳤었습니다. 그러다 S사 면접에서 전문가들의 깊이 있는 질문에 답하지 못했던 아쉬움이 남아, 늦었지만 딥러닝 이론을 정리해보고자합니다. 개인적인 정리용도이지만 오류나 질문사항이 있으면 댓글 부탁드립니다! 딥러닝이 담고있는 수학, 컴퓨팅 알고리즘적인 깊이 때문에 깔끔한 정리는 되지않을 것 같습니다. 또한, 대략적인 요약이라 상세한 부분은 생략할것입니다. 1. 딥러닝은 어디에서부터 왔는가? 딥러닝은 우리 뇌의 신경망 구조를 본뜬 퍼셉트론(Perceptron)에서 부터 출발했습니다. 딥러닝이 현재 실제로 상용화된 인공지능 서비스까지 닫기에 많은 고난을 거쳤지만(XOR문제, 계산속도 문제, Backpropagation의 등장 등..)..