본문 바로가기
취준 기록

[취준] 통계학 면접 대비 질문 리스트 (for 데이터 사이언티스트)

by davidlds 2025. 5. 18.
반응형

데이터 사이언티스트.
정말로 정보를 찾기가 힘든 직종이다.
취업하는 과정이 험난하고 막막하다.
나는 다음 세대가 더 편하게 취업을 했으면 하는 생각에 취업 준비 기록을 남긴다.

 

딥러닝 면접 대비를 위한 질문 리스트이다.

깃허브에 통합 버전이 있는데 안들어갈거 같아서 여기다 추가로 적는다.

 

원본은 여기.

여러 사이트와 깃허브를 참고했다.

그분들께 무한한 감사를 드립니다.

그런 의미에서 나의 리스트도 공공재로 쓰면 된다.

 

다만 면접 대비에서도 언급했던 것처럼 꼭 반드시 자신의 언어로 답변을 다시 준비하도록 하자.

면접 대비 글은 여기.

 

[취준] 5번째, 데이터 사이언티스트 면접 준비

데이터 사이언티스트.정말로 정보를 찾기가 힘든 직종이다.취업하는 과정이 험난하고 막막하다.나는 다음 세대가 더 편하게 취업을 했으면 하는 생각에 취업 준비 기록을 남긴다.코딩 테스트가

davidlds.tistory.com

 

면접대비 짤

 

면접

  • 자신감과 진정성

🧐 사용 방법

  • 질문에 대한 답변을 패드에 손으로 쓰며 외운다.
  • 마크다운의 목차(Outline)를 클릭하여 펼친다.
  • 질문만 보고 답변을 연습한다.

 

[통계학]

편향과 분산에 대하여 각각 설명하라

  • bias는 예측값이 실제값과 얼마나 다른지를 나타냅니다. variance는 데이터의 변화에 따라 모델의 예측이 얼마나 달라지는지를 나타냅니다. 예를들어 bias가 높고 variance가 낮은 모델은 탄착군은 형성되지만 중심을 못맞추는 사수라고 볼 수 있고 variance가 높고 bias가 낮은 모델은 중심 근처를 맞추지만 넓게 퍼진 형태로 쏘는 사수라고 볼 수 있습니다.

p-value를 모르는 사람에게 설명하라

  • 가정한 결과가 우연히 나올 확률 입니다. 예를 들어 p-value가 0.05라면 이런 결과가 우연히 나올 확률이 5%밖에 안 된다는 의미로, 결과가 통계적으로 의미있다고 볼 수 있습니다.

R^2의 의미는 무엇인가

  • 모델이 데이터의 변동을 얼마나 잘 설명하는지를 나타내는 지표입니다. 0~1 사이의 값을 가지며, 일반적으로 0.64가 넘으면 모델의 설명력이 좋다고 판단합니다. 결정계수는 상관계수의 제곱값으로 계산할 수 있습니다.

시그마는 무엇이고 1~3 시그마 값은 몇인가

  • 시그마는 표준편차를 의미합니다. 정규분포를 가정하면 중심으로부터 ±1시그마 = 68%, ±2시그마 = 95%, ±3시그마 = 99.7% 입니다. (2시그마랑 p-value 0.05랑 비슷한 수준)

평균과 중앙값의 차이와 사용 예시를 설명하라

  • 모든 값의 합을 개수로 나눈 값으로 이상치에 민감합니다. 반면에 중앙값은 데이터를 정렬했을 때 가운데 있는 값으로 이상치의 영향이 적습니다.

중심극한정리를 설명하라

  • 표본의 크기가 충분히 크면, 표본평균의 분포는 정규분포에 가까워진다는 이론입니다. 이는 모집단의 분포와 관계없이 성립합니다.

엔트로피와 information gain을 설명하라

  • 엔트로피는 데이터의 불확실성을 측정하는 지표이고 information gain은 특정 특성으로 분할했을 때 줄어드는 엔트로피의 양입니다. 디시전 트리에서 사용합니다.

probability와 likelyhood의 차이를 설명하라

  • probability는 주어진 모수에서 특정 데이터가 관찰될 확률이고 likelyhood는 관찰된 데이터가 주어졌을 때 특정 모수가 맞을 가능성입니다.
  • probability는 공정하다는 것을 가정하고 미래의 결과를 예측하는 것이고 likelyhood는 이미 결과를 관찰한 뒤 동전이 공정할 가능성을 평가합니다.

베이지안과 프리퀀티스트의 차이를 설명하고 본인의 의견을 설명하라

  • 베이지안은 확률을 확률변수로 해석하고 사전 확률을 설정한 뒤 새로운 데이터로 확률을 업데이트합니다. 반면, 프리퀀티스트는 확률을 장기적인 빈도로 해석하고 확률를 고정된 값으로 봅니다.
  • 베이지안의 입장에서 확률은 불확실성이 있고 계속 변하는 것이고 프리퀀티스트의 입장에서 확률은 이미 많은 데이터에 의해 결정된 것 입니다.
  • 저는 프리퀀티스트 입니다. 통계적 검정인 p-value 0.05, 상관계수 0.8 등을 활용하는 편이고 데이터는 객관적이고 진실을 반영하며 데이터에 의한 의사결정을 추구하기 때문입니다.

missing value가 있을 경우 채워넣을 것인가

  • 데이터가 랜덤하게 없을 경우 평균값이나 중앙값으로 대체할 것이고 특정한 패턴이 발견될 경우 그 자체로 의미있는 정보일 가능성이 있으므로 별도로 처리할 것입니다.

아웃라이어를 판단하는 기준은 무엇인가

  • 통계적으로 Q1 - 1.5xIQR 과 Q3 + 1.5xIQR을 넘어간 값 입니다. (z-score 3시그마 추가 질문 시 대답)

아이겐벡터와 아이겐벨류가 무엇이고 왜 중요한가

  • 아이겐벡터는 선형변환 후에도 방향이 유지되는 벡터이고 아이겐벨류는 해당 벡터의 스케일 변화량 입니다. 차원축소 알고리즘에서 활용할 수 있고 복잡한 선형 변환을 간소화시켜주기 때문에 중요합니다.

상관관계와 인과관계의 차이점을 설명하라

  • 상관관계는 두 변수 간의 통계적 연관성이 있다는 것으로 선형이나 비선형관계가 있다는 것 입니다. 인과관계는 긴밀한 원인 결과 관계가 있다는 것으로 한 변수가 다른 변수에 직접적인 영향을 준다는 것 입니다.

귀납적 논리와 연역적 논리의 차이점을 설명하라

  • 귀납적 논리는 인덕션으로 사례에서 일반적인 규칙을 도출하는 것이고 연역적 논리는 디덕션으로 일반적인 규칙에서 결론을 도출하는 것입니다. 대표적인 예시로 인덕션에는 머신러닝이 있고 디덕션에는 삼단논법이 있습니다.

동전을 10번 던졌는데 앞면이 1번 나왔다. 공정성 테스트를 위한 귀무가설과 p값은 무엇인가

  • 귀무가설은 동전이 공정하다로 앞면이 나올 확률이 0.5인 것입니다. P값은 이항 분포 B(10, 0.5)에서 1번 이하로 나올 확률이므로 P값은 (1+10)x1024 = 0.011 정도 입니다. 유의수준 0.05에서 귀무가설을 기각하므로 동전은 불공정합니다.

1000번 동전을 던졌을 때 550번 앞면이 나왔다. 동전은 편향되었는가

  • 귀무가설은 동전이 공정하다로 앞면이 나올 확률이 0.5인 것입니다. 이항분포를 정규분포로 근사하면 n=1000, p=0.5 입니다. 이항분포에서 평균은 np로 500 이고 이항분포에서 시그마는 √np(1-p) 이므로 √250 이고 16정도 입니다. 중심으로부터 벗어난 거리 50을 시그마로 나누면 z score가 3이 넘으므로 동전은 공정하지 않습니다.

4보다 큰 숫자가 나올 때까지 주사위를 연속으로 굴렸는데 4번째에서 나오는 확률은 얼마이고, 4번째 미만의 시도에서 성공할 확률은 얼마인가

  • 한번에 성공할 확률은 2/6으로 1/3 입니다. 3번 모두 실패할 확률은 (2/3)^3 이므로 8/27 이고 마지막에 성공할 확률 1/3을 곱하면 8/81으로 약 0.1 입니다. 4번째 미만의 시도에서 성공할 확률은 1-0.1=0.9 입니다.

주사위가 두번 연속으로 5가 나올때까지 굴릴 때 예상되는 굴리는 횟수

  • 한번에 성공할 확률은 (1/6)^2로 1/36 입니다. 따라서 예상 횟수는 1/p로 36회 입니다.

두 게임 중에 무엇이 더 유리한가. 게임1: 한번에 두개 주사위를 던져 두 값의 곱에 해당하는 달러를 가진다. 게임2: 하나의 주사위를 던져 값의 제곱에 해당하는 달러를 가진다.

  • 주사위의 모든 눈 수의 합은 7*3인 21이고 면이 6개 이므로 기댓값은 21/6=7/2 입니다. 게임 1은 기댓값 두개를 곱하는 것이므로 약 49/4=12 입니다. 게임 2는 1+4+9+...+36=91에 6을 나눈 값으로 약 91/6=15 입니다. 따라서 게임2가 더 유리합니다.

사용자의 80%가 60%의 영화에 좋아요를 누르고 사용자의 20%는 모든 영화에 좋아요를 누르는 'lazy user'이다. 누군가 연속으로 3개 영화에 좋아요를 눌렀다면 'lazy user'일 확률은 얼마나 되는가

  • 베이즈 정리를 사용하여 계산합니다. P(Lazy)=0.2, P(3likes|Lazy)=1, P(3likes|Unlazy)=0.6^3=0.2 입니다.
  • P(Lazy|3likes) = P(3likes|Lazy)xP(Lazy)/P(3likes) 이므로 P(3likes)를 구해야합니다.
  • P(3likes) = P(3likes|Lazy)xP(Lazy) + P(3likes|Unlazy)xP(Unlazy)로 구할 수 있습니다.

 

끝.

반응형