본문 바로가기
취준 기록

[DS 취업준비] 1번째, 데이터 사이언티스트 프로젝트 진행하기

by davidlds 2025. 1. 24.
반응형

데이터 사이언티스트.

정말로 정보를 찾기가 힘든 직종이다.

취업하는 과정이 험난하고 막막하다.

나는 다음 세대가 더 편하게 취업을 했으면 하는 생각에 취업 준비 기록을 남긴다.

 

먼저 연구이자 개발자 직군인 데이터 사이언티스트를 하고싶다면 포트폴리오가 있어야 한다.

3개 정도의 프로젝트를 진행하고 PPT나 깃허브를 만들면 된다.

 

그런데 드는 의문.

신입이 프로젝트를 어디서 하는데요.....ㅎㅁㅎ

 

그래서 대부분 포트폴리오 학원을 등록해 팀프로젝트를 진행한다.

나도 제로베이스 데이터분석 교육을 수강했다.

(왜?)

제로베이스에는 '데이터 교육'도 있는데 나는 '데이터 분석 교육'을 수강했다.

데이터 사이언티스트는 (분석가 + 모델러 + 백엔드 엔지니어) 의 요상한 직무이다.

모든 분야를 다 잘해야 할 수 있는데 특히 모델링에 집중되어 있는 직무이다.

나는 비트캠프에서 백엔드 출신 멘토님께 파이썬을 배웠고 대학원에서 모델링을 해봤다.

그래서 그나마 부족한게 분석가 스킬이라고 생각해서 데이터분석 교육을 수강했다.

아무튼 여기서 팀프로젝트를 2개 진행했고 이걸 포트폴리오에 활용했다.

 

내가 준비한 프로젝트는 총 4개다.

멘토님들이 조언해주신 것들 때문에 2개만 했다.

조언의 내용은 석사논문, 경력을 프로젝트 취급해서 넣으라고 하셨다.

그래서 (석사논문 + 경력 + 플젝 2개) 해서 총 4개다.

 

각각의 프로젝트 링크는 여기.

 

1. 프로젝트 진행 순서

프로젝트는 학원에서 시키는대로 하면 된다.

아주 멘토링을 세심히 잘 해주신다.

(제로베이스나 다른 곳이나 다 잘해주는 걸로 알고 있다.)

 

순서는 다음과 같이 진행된다.

기획서 작성 -> [(각자 프로젝트 진행 -> 취합 회의) for _ in range(될 때 까지)] -> 발표

 

보통 6명이서 시작하는데 프리라이더가 자유를 찾아 떠나고 나면 4명정도 남는다.

(제로베이스는 국비가 아니다. 자비를 들여서 하는 강의인데도 프리라이더가 있다. 놀랍다.)

 

 

2. 기획서

기획서는 이런 구성으로 작성한다.

기획서

 

개요 ~ 데이터는 사실상 받아적기에 가깝다.

그리고 앞에 내용들을 잘 버무려서 기획안을 잘 작성해야한다.

잘 작성해야한다. 진짜 잘 작성해야한다.

그 이유는 포트폴리오를 만들다가 막히면 보는게 이 기획안 이기 때문이다.

 

문제해결 프로세스에 따라서 다음 과정이 모두 들어가면 좋다.

문제정의 -> 기대효과 -> 해결방안 -> 우선순위 -> 분석 -> 성과측정 -> 모델운영

예시를 보여주자면 이렇다.

기획안

 

이제 기획안을 바탕으로 프로젝트를 진행하면 된다.

(+기획서도 각 프로젝트 깃허브 repo 안에 있지만 개인정보 문제로 링크를 따로 달지는 않겠다.)

 

3. 프로젝트

데이터 분석 프로젝트라서 파이썬 노트북에서 모든 것을 해결했다.

마크다운이랑 코드를 같이 사용해서 열심히 진행한다.

 

예시는 여기. 여기2.

 

데이터 분석 프로젝트는 이런 순서로 진행한다.

전처리 -> EDA -> feature engineering -> 모델링 -> 모델평가 -> 모델해석

 

프로젝트에서 주고싶은 팁은 2가지 이다.

 

3.1. 스토리 정리

첫번째는 '스토리 정리' 이다.

 

진행하며 백프로 이런 생각이 들거다.

'분석법 or ML 사용하기로 기획에서 결정했는데 EDA를 왜하지?'

그 이유는 명분이 필요하기 때문이다.

그 분석법을 사용하기로 결정한 과정이 잘 나타나야 한다.

ML의 경우에는 EDA 과정에서 ML의 해석 결과가 이럴 것이다 하고 예측해보면 좋다.

 

지금 우리는 회사에서 일하는 것을 '시뮬레이션'하고 있는 것이다.

프로젝트를 만들고 있다는 생각은 버리면 좋다.

이게 진짜로 회사에서 일어난 일이고 아무 정보가 없는 상태에서 이 프로젝트를 향해서 간다고 '연기'하자.

 

예를 들면 이렇다.

분석법 예시

분석 EDA

 

ML 예시

ML EDA

 

노트북 스크린샷을 넣으려다가 너무 많이 찍어야해서 그냥 포트폴리오를 가져왔다.

아무튼 이렇게 명분을 만드는게 중요하다. (???: 명분이 없다 아입니까? 명분이!!!)

 

그리고 이후 과정에서도 꾸준히 스토리를 같이 정리하자.

그래야 프로젝트가 집중력 있게 주제를 파고든다.

 

3.2. 배운점

두번째는 배운점을 적어야한다.

프로젝트가 끝나고 나면 ㅇㅋ 수고 잘했네 끝 이게 아니다.

배운점을 잘 적어야 포트폴리오를 작성하기 쉽다.

그리고 우리는 귀엽고 깜찍한 주니어이기 때문에 프로젝트 연기를 했기 때문에 배운점이 중요하다.

 

예를 들면 이렇다.

배운점

 

건방진 과거의 내가 인사이트를  참고하란다.

인사이트도 가져왔다.

 

인사이트

 

이렇게 배운점도 잘 작성하도록 하자.

 

4. 프로젝트 선택 전략

그래서 프로젝트는 뭘 해야하지?

이건 시간을 들여 고민해보는 것을 추천한다.

 

멘토님의 조언에 따르면 이렇다.

 

프로젝트 픽하는 것부터 잘 해야 한다.
프로젝트를 잘 분산해서 투자해야 한다.

도메인의 분산 (금융, 플랫폼, 이커머스 등)
분석 방법의 분산 (시계열, 분류 등)
프로젝트 종류의 분산 (부트캠프, 개인, 실무 등)

 

그리고 처음 찾을때 진짜 어디서 찾아야하는지 막막할거다.

그러면 (캐글, 데이콘, 관심 도메인에서 직접 발굴, 공공데이터) 순서로 탐색하는 것을 추천한다.

물론 가장 좋은 것은 자기주도형 프로젝트(관심 도메인에서 직접 발굴)인데 이건 어렵다.

 

 

그리고 이렇게 프로젝트를 진행하는 것은 결국 포트폴리오를 만들기 위한 것이다.

잊지말자. 우리의 목적은 포트폴리오다.

 

그 포트폴리오의 완성본은 여기 있다.

 

끝.

 

 

[DS 취업준비] 2번째, 데이터 사이언티스트 포트폴리오 만들기

데이터 사이언티스트.정말로 정보를 찾기가 힘든 직종이다.취업하는 과정이 험난하고 막막하다.나는 다음 세대가 더 편하게 취업을 했으면 하는 생각에 취업 준비 기록을 남긴다. 포트폴리오

davidlds.tistory.com

 

반응형