데이터 분석가 인턴으로 근무했던 한 외국인의 이야기를 소개해드립니다. 현업 종사자의 이야기를 듣고 데이터 분석가가 하는 일과 필요한 역량이 무엇인지 알 수 있는 시간이 되면 좋겠습니다.
자료 출처는 본문 맨 아래에 적어놨습니다.
코로나 이후로 나는 가난한 대학생으로서 데이터 사이언스를 무료로 공부했다. 그 몇 년 동안 나는 데이터 관련 여러 책을 읽고 데이터 셋을 연구하고 대회에 참여하며 친구들과 함께 공부했다.
시간은 훌쩍 지나갔고, 이제 보니 나는 대학교 졸업반이었다. 친구들은 대회에 관심을 잃었고, 스킬 향상을 위해 인턴쉽을 찾기 시작했다. 나도 친구들처럼 인턴쉽을 찾고 있었다. 취업을 위해 내 이력서에 무언가를 보여주어야 한다는 것을 깨달았다. 대회는 꽤 좋은 경험이지만, 이력서를 더 인상적으로 보이게 하고 싶었다.
몇 달 동안 지원서를 제출하고 면접을 보고 거절당한 후, 마침내 한 곳을 찾았다. 그곳은 중고 물품을 판매하는 온라인 비즈니스였다. 웹사이트 자체는 꽤 작았지만, 나를 뽑아준 것에 기뻤다. 뿐만 아니라 내 지식을 적용하고 실무를 통해 더 배울 수 있다는데 기대했다.
내가 뭘 해야 하는지 알고 있다고 생각했다. 하지만, 알고 보니 아니었다. 나는 데이터 분석 인턴쉽을 통해 흥미로운 점 몇 가지를 발견했다.
1. SQL은 내 친구
데이터 사이언티스트로서, 프로젝트의 프로세스는 데이터 수집으로부터 시작한다는 것을 알고 있었다. 대부분의 온라인 강좌와 대회에선 이미 데이터가 준비되어 있기 때문에 이 단계를 당연시했습니다.
Well … in the real world, things don’t work that way.
음... 현실은 그런식으로 작동하지 않는다.
인턴으로서 나의 첫 업무는 데이터베이스에 있는 수백 개의 테이블들을 숙지하는 것이었다. 각 테이블이 어떤 용도로 사용되는지, 어떻게 사용되며 다른 테이블들과 어떻게 통합되는지를 알아야 했다. 여기서 나는 데이터를 이해하는 것이 데이터 사이언스에서 중요한 역할을 하는 것을 깨달았다. 나는 학창 시절, 데이터의 이해를 과소평가해 왔고, 이제 나의 착각이 나를 괴롭혔다.
첫 3주 동안 계속해서 SQL을 다루었다. 선배들이 자신의 프로젝트를 수행하는 동안 참고 자료를 보조하는 조교 역할을 했다. 나는 매번 쿼리를 수정해야 했는데, 그 횟수는... 셀 수 없을 정도였다. 나는 항상 각 테이블의 기능과 각 열의 설명을 잘못 이해했다.
그 3주 동안 내가 데이터 사이언스를 3년간 공부해도 알지 못했던 SQL에 대한 지식을 쌓을 수 있었다.
2. 더 쉬운 게 있는데 왜 머신 러닝을 쓰는 거야?
SQL과 함께 보낸 지옥 같은 3주 후, 나에게 드디어 개인 프로젝트를 수행할 기회가 주어졌다. 그것은 특정 제품의 평점을 예측하는 모델을 생성하는 것이었다.
모델링 프로젝트이기 때문에 학창 시절에 배운 모든 머신러닝 알고리즘을 사용할 수 있어 흥분했다. 모델링을 시작할 준비를 마친 순간, 선배가 나에게 다가와 다음과 같이 말했다:
You don’t need to use those complex models, just use linear regression’
복잡한 모델 쓸 필요 없어. 그냥 선형 회귀 제일 쉬운 거 써.
나는 정말 당황했다. 선형 회귀를 사용할 수 있음을 알고 있지만, 다른 알고리즘들이 훨씬 뛰어난 성능을 보인다는 것도 알고 있었다.
선배와 논의한 후에 현실 세계에서는 해석이 정확도보다 더 중요하다는 것을 깨달았다. 확실한 것은, 그 멋진 머신러닝 모델들이 더 높은 정확도를 가지고 있지만, 실제 문제는:
What can our stakeholders get from the model?
그래서 고객이 모델로부터 얻을 수 있는 인사이트가 뭔데?
이 말은 내 사고방식을 완전히 바꿨다. 자주 그렇듯이, 데이터 분석가로서의 일은 주요 통찰을 고객에게 제공하는 것이다. 프로젝트의 목적은 최고의 모델을 만드는 것이 아니라, 비즈니스에 어떤 영향을 미치는지 찾아내는 것이다.
나는 이제 선형 회귀에 대한 더 큰 감사를 가지고 있다.
3. SCC 규칙
첫 프로젝트에 대한 이야기를 좀 더 하자면, 모델링 외에도 EDA를 고객에게 보여주기 위해 대시보드를 만들라는 지시를 받았다.
파이썬을 사용했고, seaborn이 제공하는 차트를 정말 좋아했다. 다양한 차트를 사용했는데, 막대 차트, 선 차트, 상자 차트, 산점도 차트 등 뭐든지 사용했다.
EDA를 1주일 동안 진행한 후에 대시보드를 만들었고, 선배들에게 발표했다. 그들은 내 발표를 정말 좋아했고, 나는 기분이 좋았다. 그러나 그들이 한 말은 다시 한번 나를 당황시켰다.
There are too many slides
슬라이드가 너무 많아The plots are difficult to understand
차트가 이해하기 어려운걸
이제 나는 고객에게 발표할 땐 고객들을 아이처럼 생각해야 한다는 점을 알게 됐다. 우리가 발견한 인사이트를 마치 5살 어린이에게 설명하는 것처럼 해야 한다. 너무 많은 정보나 너무 복잡한 정보를 제공해서는 안 된다.
우리가 고객들에게 발표하는 내용은 'SCC' 규칙을 따라야 하는데, 이는
Simple, Compact, Correct
- Simple: 발표 내용은 쉽게 소화될 수 있어야 한다
- Compact: 발표 내용은 15페이지 이내로 압축해야 한다
- Correct: 발표 자료는 사실이어야 한다
이 개념을 이해하게 되면서 이제 어떤 정보가 중요한지 결정할 때 훨씬 더 숙고하고, 그 정보를 고객들에게 어떻게 전달할지에 대해 더 신중해졌다.
마치며
내 경험이 인턴으로서의 것이라는 점을 명심하길 바란다. 내게 일어난 일이 반드시 여러분에게 일어날 것이라는 보장은 없다. 그저 내 인턴십에서의 경험과 생각을 공유했을 뿐이다.
출처: Medium, "My Experience as a Data Analyst Intern"
'Data Science' 카테고리의 다른 글
데이터 사이언스 독학 온라인 사이트 추천 - 코세라(Coursera) 딥 러닝(Deep learning) 앤드류 응(Andrew Ng) (0) | 2023.07.03 |
---|---|
비즈니스 분석(애널리틱스)를 나누는 3가지 단계 (데이터 분석가 희망자 필독) (0) | 2023.06.24 |
유명 리크루팅 회사 매니저가 챗GPT를 공부하는 4가지 이유 (1) | 2023.06.19 |
[3] 머신러닝 인트로 캐글 / Model Validation, train_test_split (0) | 2022.06.15 |
[2] 머신러닝 인트로 캐글 / columns 확인, dropna, prediction target, features, sklearn (0) | 2022.06.15 |
댓글