취업준비, 직장생활, 일상

17회 ADP 실기 후기

Stat_in_KNU 2020. 7. 7. 20:20

지난 11월 ADP 필기 합격에 이어

올해 2월 ADP실기를 응시하고 시험을 치려고했으나.. 코로나 떄문에 일정이 취소되고 

6월 21일에 가산디지털단지에서 17회 ADP 실기 시험을 치고 왔습니다.

 

간단히 요약하면 시험 후기는 다음과 같습니다.

 

1. 가산에서 시험 치신다면 가산디지털단지역에서 꽤 거리가되니(10~15분?) 미리 가시는것을 추천합니다. 저는 1호선이 인천행, 천안행으로 갈라지는것을 인지 못하고 잘못타서 큰일날뻔햇습니다..ㅎ

 

2. 방역이슈때문에 마스크를 반드시 착용해야해서 답답했던게 좀 있습니다. 입구에서 화상으로 열 감지도 하고있었습니다.

 

3. 키보드와 마우스(특히 키보드)가 굉장히 불편합니다. 다음에도 응시한다면 문의 후 개인 키보드를 가져가고 싶을 정도로 불편했습니다.

 

4. 가상환경이 익숙하지 않으신분은 조금 버벅일 수 있습니다. 저 또한 Python으로 통계적 분석을 별로 다루어 본적이 없어 전처리후 R로 옮겨서 분석하여 보고서를 작성하려 했지만 가상환경이 익숙하지않고 괜히 시간만 뺏길까봐 다른 문제를 더 풀겠다는 마인드로 풀었습니다.

 

5. 시험시작 30분뒤에 바로 퇴실이 가능합니다. 다들 실력자 셔서 저의 고사실을 중도 퇴실 한분없이 모두 끝까지 푸셨습니다. 

 

6. 맨 뒷자리라 쓱 한번 둘러봤는데 역시나 R사용자가 압도적으로 많았습니다. 제 사견으로는 데이터 전처리와 기본적인 모델링단 까지는 R과 Python이 큰 차이가 없다고 생각하는데, 좀 더 깊이있는 ML/DL 모델링을 위해서는 Python이 더 적절하다고 생각했습니다. Python을 사용한지 1년이 넘기도 했고 R도 안만지지 꽤되서 그냥 Python으로 공부했고 응시했습니다.

그런데, 아무래도 출제자가 R을 사랑하시는 분인거같은 느낌이 쎄게 들었습니다. 

기억나는건 회귀분석에서 변수 선택하라는 소문제가 있었는데 R같은 경우에는 step function으로 간단하게 하면 될 것같았습니다. Python으로 하려니 함수를 짜거나 for문을 돌려야 한다고 생각해서 시간이 오래걸릴 것같아 나중에 풀기로 넘겨놓고, 결국 시간이 부족해 구현 못하고 끝났습니다. 2차 교호작용항을 고려한 회귀분석 수행하라는 것도 마찬가지입니다.

 

7. 시간이 빡빡합니다. 솔직히 ML모델링과 모델링을 위한 전처리, 지원자 모두 시간만 주면 무한하게 할 수 있을겁니다. 그런데 전처리를 해라, 파생변수를 만들라 이런거는 정확한 기준이 없어 상당히 애매합니다. 그래서 시간 너무 끌지말고 EDA와 전처리를 적정선에서 그만두는것을 추천합니다. 모델 튜닝또한 마찬가지입니다.

 

8. 문제를 얄밉게 냅니다. 모 후기에서 이런 문장들을 본적있는데 "매번 요건 몰랐지? 하고 출제하는 것 같다", "난이도가 들쑥날쑥이다" 정말 맞는 말입니다.

문제를 어렵게 내는것 까지는 인정입니다. 저 또한 누구나 딸 수 있는 자격증이 아니라, 정말 분석 전문가를 가려낼 수 있는 시험이 되었으면 합니다. 그런데 13회인가 14회 후기를 보니 정말 쉽게 나왔더라구요. 분석 조금만 할 줄알면 합격할 수준으로.. 일관성있는 난이도이면 좋겠습니다.

또한 FA랑 시계열 모델링 그리고 MAPE를 구하는 문제라니.. 정말 요건 몰랐지?하고 내시는것 같습니다 ㅎ.ㅎ 다음엔 공부 더 해서 응시하도록 하겠습니다.

 

9. 문장표현이 상당히 모호합니다. 지난 시험 후기를 봤을때도 도대체 뭘 하라는 건지 모르겠다는 느낌이 들었었는데 이번시험도 마찬가지였습니다. 그냥 데이터 전처리후 Groupby하면 되는 문제 같은데 중의적인 표현으로 문장을 서술해놔서 엄청 고민하고 해멨습니다. 맞춘지 못맞춘지도 모르겠습니다. 요구사항을 좀 더 정확히하면 좋은 문제가 될 것 같습니다.

 

10. ML과 관련된 문제의 배점은 낮습니다.

Kaggle이나 분석 경진대회를 생각하시고 좋은 예측력을 내야지! 하면 시험 망할것같습니다. 배점도 낮으니 ML과 그에 딸려오는 전처리는 짧게 끝내고 다른 문제에 더 집중하는게 좋을 것 같습니다. 제기억에는 총점 100점중 20?점 정도 밖에 되지 않았던것 같습니다.

 

 

간단한 문제복기

 

1. Housing Data(집값 예측)

1-1) EDA 및 데이터 전처리 (시각화 및 통계량 제시)

1-2) Train Valid Test set으로 분할 및 시각화 제시

1-3) 2차 교호작용항 까지 고려한 회귀분석 수행 및 변수 선택 과정 제시

1-4) 벌점, 앙상블을 포함하여 모형에 적합한 기계하습 모델 3가지 (MSE, MAPE, R2 제시)

 

2. Corona Data(시계열)

2-1) 인구대비 코로나 확진자 비율이 가장 높은 국가 5개 제시하고 일일확진자, 누적확진자, 일일 사망자, 누적 사망자 추이를 각각 1장씩의 시각화 그래프로 시각화(차분을 이용함)

2-2)

2-3) 코로나 위험지수를 개발하고 위험지수가 높은 국가 10개를 추려내서 막대그래프로 시각화하기

2-4) 시계열 모델링 및 비선형 모델링

 

3. Survey Data

분석 전, 역코딩을 반영해야함.

3-1) 항목별 그룹별 만족도 응답의 평균, 표준편차, 왜도, 첨도를 구하라.

(이렇게보면 별거 아닌거 같지만 실제 데이터를 보면 말이 엄청 애매한 문제입니다)

3-2) 응답항목별 차이가 있는지 분석

(아마 Anova Table을 요구하는 것 같습니다)

3-3) 탐색적 요인분석 수행(FactorAnalysis)

3-4) 신뢰성 지수를 개발 하는 문제 항목별 신뢰성 지수를 구하라.

 

다음 시험은 어떻게 준비해야할까, 총평

정답인지 아닌지 몰라도 푼문제의 점수를 합쳐보니 70점이고 합격 커트라인은 75점이라 사실상 이미 떨어졋다고 생각합니다. 조금 아쉽지만 출제자한테 뒤통수 맞은거 치고는 꽤 푼거 같기도합니다.

 

다음 시험때 출제자님 성향에 맞춰 R로 준비할지 Python으로 R에 있는 여러 간편한 함수들(step이라던지...)을 미리 구현해놓을지는 고민을 좀 해봐야 할 것 같습니다. (다른 할일도 많기때문에.. ㅠㅠ)

 

더 나아가 다변량 분석이나 회귀 분석, 시계열 분석 등 통계적 분석을 조금 더 깊이있게 준비해야할것 같습니다.

(지난 시험 PCA 이번에 FA니 다음에는 다차원 척도법이 나오려나...ㅎ)

 

확실히 난이도가 있었고, 데이터 분석/사이언스로 진로를 잡은 이상 몇번을 치더라도 합격하고 싶은 시험입니다. 준비를 좀 더 철저히 해서 다음에는 합격 후기로 찾아 뵙겠습니다 ㅎㅎ.