본문 바로가기

데이터분석 교육 (제로베이스)33

[스터디 노트] 12번째 파이썬 분석 기초 (240926), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.12번째는 파이썬 분석 기초 강의이다. [Series and DataFrame]데이터 프레임 만들기pd.DataFrame({ 'col1', [1, 2, 3, 4, 5], 'col2', [1, 2, 3, 4, 5], 'col3', [1, 2, 3, 4, 5], })컬럼 순서 변경순서 바꿔서 컬럼 넣고 다시 선언df = df[['name', 'type', 'hp', 'evolution','pokedex']]새 컬럼 생성df['col4'] = [1, 2, 3, 4, 5]hp가 40 이상인 데이터df[df['hp'] >= 40]원하는 컬럼만 출력df[['name', 'type']]df 복제df.copy() 사용같다고 선언하면 연결되서 에러 날 수 있음값 수정lo.. 2024. 9. 26.
[스터디 노트] 11번째 파이썬 분석 기초 (240925), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.11번째는 파이썬 분석 기초 강의이다. 수업이 반복되고 있어서 적응이 조금 되고 있다.ADsP 내용이 매우 많다. (6시그마... 읍읍) [Apply와 Map]매핑이 간단하면 map-람다 사용조건이 복잡해지면 함수 선언하고 apply 사용딕셔너리로 매핑map 함수 사용람다함수 사용df['mapped_col'] = df.col1.map(lambda x: dic[x])apply 함수 사용함수 하나 선언해서 사용하는 것df['mapped_col'] =df.col1.apply(changeCategory)구간 컬럼 정의 후 카운트매핑 후 카운트df['ages'] = df.col1.map(lambda x: x//10 *10)df_ans = df['ages'].val.. 2024. 9. 26.
[스터디 노트] 10번째 파이썬 분석 기초 (240924), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.10번째도 파이썬 분석 기초 강의이다. [grouping]빈도수 출력value_counts 함수 사용size 함수도 동일 기능df_ans = df.host_name.value_counts().sort_index()null을 세지 않으니 주의null도 세고 싶을 경우 dropna=True컬럼 2개를 기준으로 빈도수 출력groupby 사용df_ans = df.groupby(['col1','col2'], as_index=False).size()그룹별 특정 값의 기초통계 값agg 함수 사용df_ans = df.groupby('col1')['col2'].agg(['mean','var','max','min'])피벗 테이블unstack 함수 사용df_ans = df... 2024. 9. 24.
[스터디 노트] 9번째 파이썬 분석 기초 (240919), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.9번째는 파이썬 분석 기초 강의이다. 파이썬을 데이터 분석가가 사용하는 입장에서 주로 쓰는 코드를 공부한다. Python (분석)[판다스][기본 함수]상위 5개 행 출력df.head()행과 열의 갯수 출력df.shape전체 컬럼명 출력df.columns데이터프레임의 인덱스 구성 확인df.index0부터 시작해서 스텝 사이즈가 1이 디폴트null 갯수 확인df.isnull().sum()전체 컬럼 데이터 개수와 타입 체크df.info()numerical 변수 통계값 확인df.describe()한글 포함된 csv 로드df = pd.read_csv(path, encoding='euc-kr')컬럼의 고유값 확인개수 출력df['col'].nunique()이름 출력d.. 2024. 9. 19.
[스터디 노트] 8번째 git (240918), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.8번째는 git 강의이다.마지막 git 강의이고 다음 부터는 파이썬을 이용한 데이터분석으로 들어간다. [git tag]깃 태그특정 버전에 태그를 달아놓을 필요가 있을 때 사용보통 버전을 릴리즈할 때 사용tag 이름으로 체크아웃 가능git tag (태그 이름)태그 생성HEAD가 가르키는 버전을 태그로 생성git tag태그 목록 조회git tag (태그 이름) (커밋 id)지금 버전 말고 이전 버전으로 태그를 생성git push origin (태그 이름)태그 배포하기깃허브에 태그가 표시되며 업로드git show (태그 이름)특정 태그 상세 조회git tag --delete (태그 이름)로컬에서 태그 삭제git push origin --delete (태그 이름.. 2024. 9. 18.
[스터디 노트] 7번째 git (240916), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.7번째는 git 강의이다. [git log 문법]git log저장소의 커밋 이력을 시간순으로 모두 출력git log -2최근 2개만 출력git log --skip 5최근 5개 스킵하고 나머지 모두 출력git log -p -1diff를 포함해서 출력git log --oneline커밋 로그 id와 커밋 메시지만 보기git log --author=(유저 이름 or 유저 이메일)사용자 정보로 검색git log -S (검색어)파일의 변경 내용으로 검색git log --grep (검색어)커밋 메시지 내용으로 검색[remote repository]git remote add origin (url)remote 저장소 추가git remote set-url origin (u.. 2024. 9. 16.
[스터디 노트] 6번째 git (240915), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.6번째는 git 강의이다. Git[Git][VCS 개념]버전 관리 시스템(Version Control Systems)형상 관리 시스템(Configuration Management Systems)과 같은 말버전별로 소스 관리, 문제 발생 시 전후 상황 파악협업, 작업 추적, 복구깃 공식 문서 https://git-scm.com/[Git 버전 관리]파일을 저장하는 순간의 스냅샷을 저장파일의 변경사항이 없는 경우, 파일을 새로 저장하지 않는다.Git 구성 요소working directory작업 공간우리가 폴더에서 보고 있는 파일staging area버전을 매기기 전 단계add 시 오는 공간여기 있어야 커밋 가능git directory버전을 매기고 관리하는 공간.. 2024. 9. 15.
[스터디 노트] 5번째 SQL (240911), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.5번째도 SQL 강의이다.이번이 SQL 마지막이고 다음부터는 git을 배운다. [SCALAR 함수 개념]입력값을 기준으로 단일 값을 반환UCASE: 영문을 대문자로 변환LCASE: 영문을 소문자로 변환MID: 문자열 일부분을 반환LENGTH: 문자열의 길이를 반환ROUND: 지정한 자리에서 숫자를 반올림NOW: 현재 날짜 및 시간을 반환FORMAT: 숫자를 천단위 콤마가 있는 형식으로 변환[UCASE, LCASE 문법]영문을 대문자로, 소문자로 변환예제select ucase(menu), price from sandwich where price > 15;select lcase(menu), price from sandwich where price [MID 문.. 2024. 9. 11.
[스터디 노트] 4번째 SQL (240910), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.4번째도 SQL 강의이다. [FOREIGN KEY 문법]외래 키테이블과 다른 테이블을 연결FOREIGN KEY로 지정된 컬럼은 연결할 테이블의 기본키가 된다.지금 테이블의 PRIMARY KEY는 따로 있다.다른 테이블의 PRIMARY KEY를 참조해서 FOREIGN KEY 컬럼을 만드는 것이다.한 테이블에 2개 있을 수도 있다.CONSTRAINT 문법으로 FOREIGN KEY 설정create table orders (oid int not null, order_no varchar(16), pid int, primary key (oid), constraint FK_persons foreign key (pid) references persons(pid));de.. 2024. 9. 10.
[스터디 노트] 3번째 SQL (240909), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.3번째도 SQL 강의이다. 예전에 AWS RDS 너무 대충 해보고 넘어가서 잘 기억이 안났었다.이번에 다시 차근차근 해보면서 AWS RDS를 제대로 알게되었다. 그냥 원래 파이썬을 쓰던 사람으로써 SQL을 왜 굳이 쓰지? 라고만 생각했었다.하지만 SQL을 써야만 하는 어쩔 수 없는 상황이 오는법이다.그냥 그때 가서 구글링 해야지 라고 생각했었는데,이번 기회에 파이썬과 SQL을 연계하여 사용하는 방법을 익힐 수 있었다. [UNION 문법]여러개 SQL문을 합쳐서 하나의 SQL문으로 만들기컬럼의 개수가 반드시 같아야 한다.컬럼의 종류가 달라도 괜찮은데 개수는 같아야 한다.UNION: 중복된 값을 제거하여 리턴UNION ALL: 중복된 값도 모두 리턴실습환경 .. 2024. 9. 9.