본문 바로가기

데이터분석 교육 (제로베이스)33

[스터디 노트] 32번째 Spark Pyspark (241205), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.32번째는 Spark Pyspark 강의이다. 저번에 이어서 spark 내용을 진행했다. [스파크 기본][환경 설정]설치 !apt-get install openjdk-8-jdk-headless!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz!tar -xf spark-3.0.0-bin-hadoop3.2.tgz!pip install findspark!pip install kaggle --upgradeimport osimport findsparkos.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64".. 2024. 12. 5.
[스터디 노트] 31번째 Spark Pyspark (241128), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.31번째는 Spark Pyspark 강의이다. 실무에서는 진짜 큰 대용량 데이터를 사용할 것이기 때문에분산 컴퓨팅을 꼭 배워보고 싶었다.분산 컴퓨팅으로 가장 보편적으로 알고있는 것은 하둡인데,같은 회사의 아파치에서 나온 분산 컴퓨팅 시스템이다. Spark[스파크 개요][APACHE Spark]분산 클러스터링 컴퓨팅 오픈소스 프레임워크.대규모 데이터 처리용으로 설계됐다.계산 부하를 여러 노드에 분담 병렬 처리한다.구조: cluster manager, driver process, executorscluster manager사용 가능한 자원 파악한다.데이터 처리 작업을 관리하고 조율한다.사용자가 스파크 어플리케이션을 제출하는 곳 이다.driver process.. 2024. 11. 28.
[스터디 노트] 30번째 SQL 분석 Power BI (241108), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.30번째는 SQL 분석 Power BI 강의이다. 반복된 내용이 많아서 새로 배운 내용들만 따로 추가한다. [Matrix 시각화]시각화 탭 -> 행렬열에 있는 컬럼 행으로 다 넣기+/- 없앨 수 있다.계단형을 펼칠 수 있다.부분합 없앨 수 있다.조건부 서식값의 컬럼 아래 삼각형 -> 조건부 서식 -> 배경색엑셀처럼 규칙 작성하면 원하는 경우만 배경색 설정 가능그라데이션도 줄 수 있다.데이터 막대도 그릴 수 있다.테이블이랑 사실상 같은 데이터인데 모양만 다르다.개인적으로는 행렬이 더 보기 좋은 듯 하다.[신규 테이블과 관계 생성]신규 테이블 생성상단 툴바 -> 데이터 입력 -> 테이블 값 입력 -> 로드제일 우측 데이터 탭에 생겼다.관계 설정좌측 -> 모델.. 2024. 11. 8.
[스터디 노트] 29번째 SQL 분석 (241106), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.27번째는 SQL 분석 강의이다. 요즘은 팀프로젝트에 전념하고 있어서 강의 들을 시간이 없다...ㅎㅁㅎ그래도 틈틈이 들으면서 메모한 내용이다. [도메인 지식 메모]물류 유통 용어재고: 입고량 - 판매량권장 판매가(list price) -> 할인 -> 실 판매가(net price)SKU: stock keeping unit, 재고 관리를 위한 최소 단위 코드Unit Quantity: 상품의 개수물류 유통 지표DOC: day of coverage, 재고로 몇일 판매 가능한지, (재고량) / (하루 판매량)DOC가 낮으면 빨리 소진 되니까 재고 전환율이 높은 것이다. [실전 팁]완성된 쿼리문 서브쿼리로 사용with 절이 조인도 가능하고 더 좋다.하지만 메모리를 .. 2024. 11. 6.
[스터디 노트] 28번째 개인 프로젝트 (241029), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.28번째는 개인 프로젝트 내용이다. 일주일 동안은 강의는 잠시 멈춰두고 개인 프로젝트를 왕창 했다.산업군별 10개의 프로젝트를 진행했고 실전 감각을 익혔다.실전 분석에 사용할 베이스라인을 세우고 감을 익혔다.과정에서 아주 만족스러운 부분 중 하나이다. [분석 코드 baseline][데이터 전처리 4단계]데이터 형태 확인df.shape데이터 타입 확인df.info()숫자로 보이는데 문자인 경우 확인문자로 보이는데 숫자인 경우 확인object 타입(스트링) 확인인트 플롯 확인NULL 값 확인df.isnull().sum()outlier 확인df.describe()특히 min, max에 음수값 있는지 확인도메인 지식 기반으로 처리[EDA baseline]데이터.. 2024. 10. 29.
[스터디 노트] 27번째 SQL 분석 Power BI (241023), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.27번째는 SQL 분석 Power BI 강의이다. 맥북이라 아주 당황스럽지만...ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ보편적으로 사용하는 분석 툴이라서 배워두면 쓸모 있을 것 같다.앞에서 했던 루커 스튜디오와 매우 유사한 UI를 가지고 있다. Power BI[파워BI 개요]맥북 설치 불가 (ㅎㅁㅎ?)[작업 환경]루커 스튜디오와 매우 유사하다.시각화 탭데이터 탭좌측상단보고서 보기: 대시보드 보기데이터 보기: 테이블 미리보기ERD 보기: ERD로 보기[데이터 가져오기]csv 가져오기상단 툴바 -> 데이터 가져오기 -> 텍스트.csv 클릭컬럼명이 망가져 있다.상단 툴바 -> 데이터 변환 -> 데이터 변환 클릭상단 툴바 -> 첫 행을 머리글로 사용 클릭닫기 및 적용상단 툴바 .. 2024. 10. 23.
[스터디 노트] 26번째 SQL 분석 디비버 (241021), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.26번째는 SQL 분석 디비버 강의이다. 보통 그냥 터미널에서 MySQL을 코딩하는데,디비버는 파이썬-파이참처럼 MySQL을 쉽게 사용할 수 있는 도구이다.터미널에서 자동완성 같이 좀 답답한 부분들이 있었는데 사용성이 아주 좋았다. DBeaver[디비버 개요][디비버 장점]오픈소스 툴다양한 DB 지원직관적 인터페이스쉬운 importERD 그리기 가능[초기 환경설정]Upper case윈도우 탭 -> 환경설정 -> 편집기 -> SQL 편집기 -> SQL 포맷keyword case를 Upper로 고치기행번호 표시윈도우 탭 -> 환경설정 -> 편집기 -> 문서 편집기행번호 표시 체크[자주 쓰는 단축키]CMD + ENTER: 현재 쿼리 실행CMD + : 새탭에서 .. 2024. 10. 21.
[스터디 노트] 25번째 SQL 분석 빅쿼리 태블로 루커 (241020), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.25번째도 SQL 분석 빅쿼리 태블로 루커 강의이다. 여기서 부터는 빅쿼리, 태블로, 루커를 왔다갔다 하면서 복합적으로 사용한다.그리고 대부분 실습하는 내용이라 메모가 많지는 않다. 태블로 부분[실전 팁]레이블 추가할 때 선반이랑 통일시키는 방법선반에 있는 측정값 CMD 누르고 드래그 앤 드랍테이블 계산값 어떻게 구하는지 시각화해서 편집마크 카드에 측정값 아래 삼각형 -> 테이블 계산 편집이동평균선 시각화측정값 아래 삼각형 -> 퀵테이블 계산 -> 이동평균선연평균 성장률해당 기간동안 평균적으로 얼마나 성장 했는지에 대한 지표태블로에서는 통합성장률(CAGR) 사용하면 된다.산술평균이 아니라 기하평균으로 계산한다.선반에 있는 측정값 바로 바꾸기원하는 측정값을.. 2024. 10. 21.
[스터디 노트] 24번째 SQL 분석 빅쿼리 태블로 루커 (241019), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.24번째도 SQL 분석 빅쿼리 태블로 루커 강의이다. 여기서 부터는 빅쿼리, 태블로, 루커를 왔다갔다 하면서 복합적으로 사용한다.그리고 대부분 실습하는 내용이라 메모가 많지는 않다. 루커 부분[루커 스튜디오 심화][빅쿼리 연계]빅쿼리로 쿼리 작성 해놓고 복사하기루커에서 새 보고서 열기 -> 데이터 추가에서 빅쿼리맞춤 검색어 -> 데이터 베이스 선택 -> 쿼리 입력 -> 쿼리 붙여넣기 -> 추가[대시보드 레이아웃]테마 변경상단 툴바 -> 테마 및 레이아웃 -> 원하는 테마 선택스코어카드 추가데이터 패널에서 데이터 하나 드래그 앤 드랍스타일 -> 모든 가운데 정렬영역 박스 추가상단 툴바 -> 도형 -> 도형 만들고 우클릭, 주문 -> 맨뒤로 보내기[매개변수와.. 2024. 10. 19.
[스터디 노트] 23번째 SQL 분석 빅쿼리 (241016), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.23번째도 SQL 분석 빅쿼리 강의이다. 이번까지 빅쿼리 강의를 마무리 짓고다음부터는 빅쿼리로 만든 데이터셋을 태블로로 시각화 한다. 대부분 실습하는 내용이라 메모가 많지는 않다. [날짜별 지표 쿼리]연도별 집계하기2번 셀렉트에 extract(year from ord.order_approved_at) as ord_year, 추가3번 셀렉트에 ord_year 추가3번 맨아래에 group by ord_year와 order by ord_year 적기[실습: 대시보드 데이터 만들기][데이터셋 준비]쿼리 수정1번with tb as ( select item.order_id, sum(item.price) as ord_amt, count(item.order_item_i.. 2024. 10. 16.