본문 바로가기
데이터분석 교육 (제로베이스)

[스터디 노트] 16번째 기초통계 (241003), 제로베이스 데이터 분석 스쿨 내용

by davidlds 2024. 10. 3.
반응형

제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.

16번째는 기초통계 강의이다.

 

대부분 알고 있는 내용이라 정리하는 것에 집중했다.

더 자세한 내용들을 기존 깃허브 노트들을 쭉 읽어봤다.

 

[개념 용어]

  • 증감률(%) vs 퍼센티지 포인트(%p)
    • 증감률
      • %, 이전 기간 대비 현재 기간의 값 변화
      • (현재 - 이전)/(이전) * 100
      • ex. 매출 성장률
    • 퍼센티지 포인트
      • %p, 퍼센트 자체의 증감을 나타내는 단위
      • (현재% - 이전%)
      • 마켓 쉐어 퍼센티지 증가
    • 증감률은 값을 기준으로 변화가 어떤지 볼 때 사용한다.
    • 퍼센티지 포인트는 퍼센트 자체의 변화를 표현하기 위해 사용한다.
  • 기술통계량
    • 데이터의 전반적인 특성을 이해
    • 분석의 방향성을 결정
    • 중심의 경향성: 평균, 중앙값, 최빈값
      • 평균, (장) 가장 대표, (단) outlier 영향 큼
      • 중앙값, (장) outlier 영향 적음, (단) 모수 크면 무의미
      • 최빈값, (장) 숫자가 아니어도 사용 가능
    • 퍼짐의 척도: 범위, 분산, 표준편차
      • 분산, (장) 가장 대표, (단) 제곱으로 직관성 저하
      • 표준편차, (장) 루트로 직관성 높음
    • 형태의 척도: skewness, kurtosis
      • skewness, 왜도, 좌우로 치우쳐진 정도
      • kurtosis, 첨도, 데이터가 얼마나 뾰족한지
    • 위치의 척도: 백분위수, 4분위수
      • 백분위수, 특정 백분율이 위치하는 값, 시그마
      • 4분위수, 25%, 50%, 75%가 위치하는 값
  • 통계적 추론: 표본 데이터를 이용하여 모집단의 정보를 추론하는 과정
  • 중심 극한 정리
    • 표본이 충분히 클 때 성립한다.
    • 여러 표본의 표본평균이 이루는 분포가 정규분포에 가까워 진다.
  • 정규성 검정
    • 특정 데이터셋이 정규분포를 따르는지 검증하는 과정
    • 정규분포를 따라야 통계적 방법론이나 기법이 유효하게 작동한다.
    • 귀무가설: H0, 데이터셋이 정규분포를 따른다.
    • 대립가설: H1, 데이터셋이 정규분포를 따르지 않는다.
    • 다양한 검정 방법으로 귀무가설의 채택 여부를 결정한다.
    • 대부분 p-value가 0.05 이상이면 정규성을 가정한다.
    • ADsP 통계적 추정, 정규성 검정 부분 참고
  • 상관관계 분석
    • 연속형 변수 2개 간의 선형적 관계를 분석
    • a변수가 증가할때 b변수도 증가하는지 분석
    • 선형관계의 부호와 크기 파악
    • 얼마나 관계되었는지 상관계수 r로 표현한다.
    • 피어슨 상관계수
  • 회귀 모델
    • 독립 변수 X와 종속 변수 Y 간의 관계, 선형 방정식을 모델링
    • 주어진 독립 변수에 대한 종속 변수의 값을 예측
    • metric으로 MSE, RMSE 사용
    • 선형 회귀, 다항 회귀, 릿지 회귀, 라쏘 회귀
    • ADsP 회귀 분석 부분 참고

[도메인 지식 메모]

  • 콘텐츠에서 KPIs
    • MAU: monthly active users, 한달동안 앱에서 활동하는 순 유저 수
    • 월 트랜젝션 AMT: 트랜젝션으로 발생한 매출(amount) 양
    • 월 conversion rate: 고객 전환율, (매출/고객수) 비율
  • 광고 지표
    • CTR: click through rate, (광고 클릭수)/(광고 노출수) * 100
    • ROAS: return on ad spend, (광고로 인한 수익)/ (광고 비용)
    • Cost for Acquisition: ROAS와 같은 지표
  • 웹,앱 지표
    • retention: 남아있는 유저 비율, (특정 기간 이후의 사용자 수)/(처음 서비스를 이용한 사용자 수) * 100
    • DAU: daily active users, 하루 기준 유니크 유저 수
    • click: 몇번 클릭 했는지
    • time spent: 시간을 얼마나 소요했는지
  • 마켓팅 지표
    • CAC: customer aquisition cost, (특정 기간동안 총 마케팅 비용)/(동기간 동안 획득한 새 고객 수)
    • NPS: net romoter score, (추천 응답자 비율) - (비추천 응답자 비율)
    • CLTV: customer lifetime value, (고객 당 평균 수익) * (고객 관계 유지 평균 기간)
  • 금융 지표
    • ROI: return on investment, (투자로 얻은 수익 - 투자비)/(투자비) * 100
    • CAGR: compound annual growth rate, (말기 가치)/(초기 가치)^(1/기간) - 1

깃허브 링크

 

깃허브 데이터 분석 공부 부분 링크

 

 

반응형