오블완2 [스터디 노트] 31번째 Spark Pyspark (241128), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.31번째는 Spark Pyspark 강의이다. 실무에서는 진짜 큰 대용량 데이터를 사용할 것이기 때문에분산 컴퓨팅을 꼭 배워보고 싶었다.분산 컴퓨팅으로 가장 보편적으로 알고있는 것은 하둡인데,같은 회사의 아파치에서 나온 분산 컴퓨팅 시스템이다. Spark[스파크 개요][APACHE Spark]분산 클러스터링 컴퓨팅 오픈소스 프레임워크.대규모 데이터 처리용으로 설계됐다.계산 부하를 여러 노드에 분담 병렬 처리한다.구조: cluster manager, driver process, executorscluster manager사용 가능한 자원 파악한다.데이터 처리 작업을 관리하고 조율한다.사용자가 스파크 어플리케이션을 제출하는 곳 이다.driver process.. 2024. 11. 28. [스터디 노트] 30번째 SQL 분석 Power BI (241108), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.30번째는 SQL 분석 Power BI 강의이다. 반복된 내용이 많아서 새로 배운 내용들만 따로 추가한다. [Matrix 시각화]시각화 탭 -> 행렬열에 있는 컬럼 행으로 다 넣기+/- 없앨 수 있다.계단형을 펼칠 수 있다.부분합 없앨 수 있다.조건부 서식값의 컬럼 아래 삼각형 -> 조건부 서식 -> 배경색엑셀처럼 규칙 작성하면 원하는 경우만 배경색 설정 가능그라데이션도 줄 수 있다.데이터 막대도 그릴 수 있다.테이블이랑 사실상 같은 데이터인데 모양만 다르다.개인적으로는 행렬이 더 보기 좋은 듯 하다.[신규 테이블과 관계 생성]신규 테이블 생성상단 툴바 -> 데이터 입력 -> 테이블 값 입력 -> 로드제일 우측 데이터 탭에 생겼다.관계 설정좌측 -> 모델.. 2024. 11. 8. 이전 1 다음