Data-writing

데이터분석 전문가(ADP) 실기 후기

JAY-GO 2021. 3. 28. 02:35
반응형

지금까지 총 5회 ADP 실기를 보면서, 정리해야지 생각만 하고 미뤄두었던 ADP 실기 이야기를 써보고자 합니다.

5번의 실기 응시

데이터 분석 및 Kaggle을 접하기 시작한 2018년,

해당 분야에 대해 어떻게 공부 해야 할지 정보가 없던 시절이었기에 관련 분야를 전반적으로 아우르는 ADP 필기/실기 공부가 좋은 지침이 될 거라는 생각을 가지고 공부를 시작한 것이 벌써 3년이 되어가고 있네요.

 

전공자도 아니고, 관련된 커리어에 종사하고 있지 않기에 조금은 힘을 빼고 ADP 자격증을 응시하다보니, 실기만 벌써 5번을 보았습니다.(회당 7만원...ㅠㅠ)

데이터 관련 분야로 학업을 시작하고, 최근 시험을 응시 하면서 그간 미뤄왔던 ADP 이야기를 기록 하고자 합니다.

시험의 난이도

ADP의 실기는 오픈북인에도 불구하고 상당한 난의도를 보이며,

응시인원이 늘어나고 응시자 실력도 높아지면서 합격율을 관리하기 위해 난이도가 점점 높아지고 있습니다.

 

본 시험을 어렵게 하는 요소들을 경험에서 정리 하면 크게 두가지 입니다.

 

  1. 방대한 범위
    • ADP는 기계학습/통계분석 전반을 시험 문제로 출제 합니다. 오픈북이라 해도 내가 가지고간 자료가 해당분야의 모든것을 담을수는 없습니다.
    • 또한, 주어지는 자료의 형식을 예측할 수 없습니다. 내가 다루어보지 못한 형식의 자료가 주어지면, 아무것도 못하고 끝날 수 있습니다.
    • 특정한 형식의 결과물(그래프, 평가지표)을 출력해야 하는데, 모든 레퍼런스를 기억하거나 가져가기 어렵습니다.
  2. 검색 불가
    • 데이터 분석도 결국 프로그래밍을 통해 문제를 해결해야 하는데, 위에서 제시한 방대한 범위에 더하여 검색이 불가능한 시험의 제약이 매우 치명적 입니다.

이와 관련하여 실제로 제가 직면 했던 문제들을 복기 해보면,

  • 시험 자체에 대한 이해 부족
  • 과도한 기법 적용으로 인한 시간 부족
  • 처음보는 데이터 형식을 다루지 못함
  • 기계학습만 공부하고 기본 통계분석을 수행 못함
  • 시계열 자료에 대한 처리를 수행하지 못함

시험을 합격을 위해 전략적으로 접근하지 못했던 부분과, 충분한 경험(연습)이 부족했던 것이 문제라고 볼 수 있겠네요.

시험의 경향

ADP는 이제 20회가 되면서 어느정도 시험의 형태가 잡혀가는것 같습니다.

들리는 바에 의하면 초기에는 자연어 처리가 나오기도 하고, 너무 큰 원본 데이터를 읽어오지 못하면 시험을 못치는 경우까지 있었다는 이야기도 있더군요.

 

제가 응시하는 동안에는 위와같은 경우는 없었으나,

2021년 실기 공지사항을 보면 합격률에 따라 생각지 못한 상황들이 주어질 수도 있을것 같습니다.

그강 응시경험을 돌이켜보면, ADP 실기는 실제적인 데이터 분석과 유사하게 발전해 왔습니다.

  • 응시초기인 14회 정도에는 기계학습만 전부 나오곤 하였으나,
  • 어느순간부터 통계분석 부분이 확실하게 시험에 제시되기 시작 하였고,
  • 이후에는 데이터 형식을 자유롭게 다룰 수 있는지가 추가되었으며,
  • 가장 최근에는 예측에 사용되어서는 안되는 자료들을 포함하여 이를 걸러낼 수 있는지 까지 확인하였습니다.
  • 또한, 판단의 근거 및 이유를 명확히 설명 하도록 명시하고 있습니다.

가장 최근 응시한 시험의 주요 평가 요소를 되짚어보면 아래와 같습니다.

  • 기계학습의 전반에 대한 구현능력(EDA, 전처리, 자료분할, 튜닝, 지표선정, 결과해석) 과 논리적 판단
  • 데이터에 대한 처리능력(형태변환, 그룹핑, 피벗) 및 시각화
  • 시계열 자료의 처리 능력
  • 불필요한(부적당한) 자료의 선별능력

시험의 모든 부분을 포함할수는 없겠으나, 위 내용들을 참고하면 도움이 될 것 같습니다.

데이터 형태

매 시험마다 전혀 다른 형태의 데이터가 제공되고 있으며, 출제위원들도 이부분에 대한 고민이 많을것 같습니다.

어떤때는 kaggle, Dacon에서 봄직한 데이터가 나온적도 있었고, 어떤때는 어디 써버에서 직접 데이터를 뽑아왔나 싶은 자료들도 있었습니다.

 

가장 최근 시험에는, 기존에 존재하던 데이터에 더하여 의도적으로 추가한 데이터가 포함된 자료가 제시되기도 했습니다.

공부방법

이부분이 가장 궁금하실 것 같습니다.

 

4번 떨어졌고, 5번째 시험 결과도 아직 모르지만 그래도 조금이라도 도움이 되고자 적어보면

 

첫째, 가능한 넓은 범위를 아우르는 기계학습과 통계분석에 대한 기본서 1개를 충분히 학습하여 자료와 문제가 주어졌을때 그 책의 어떤 챕터를 뒤져야 하는지 알 수 있도록 준비

둘째, 데이터 분석 대회(Kaggle, Dacon) 또는 실제 프로젝트를 통해서 다양한 형식의 데이터에 대하여 EDA부터 결과 도출까지 수행 및 정리하여 표준적인 Flow를 잡아둘 것

셋째, 데이터분석 대회, 프로젝트 등을 수행하고 나면 관련 코드를 정리해서 출력 보관 할 것.

 

저같은 경우는 셋째가 잘 안되서 고생을 많이 하고 있습니다.

분명 경진대회에서 써먹었던 방법들 이었는데, 정리 및 출력을 하지 않아 시험에 활용하지 못하여 매번 후회 중입니다.

마치며

모든 자격증이 마찬가지지만, 데이터분석 또한 자격증 보다는 어떤 문제를 해결할 것인가에 대한 고민과 실제 경험(프로젝트)이 더 중요한 분야라고 생각합니다.

 

그럼에도 불구하고, 데이터 분석 분야에 대하여 전반적인 공부가 필요한 경우 도전해 볼만하다고 생각합니다.

 

제 경험이 누군가에게 도움이 되었으면 좋겠습니다.

 

감사합니다. 

 

반응형