본문 바로가기

파이썬 분석7

[스터디 노트] 15번째 선형대수 (241002), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.15번째는 선형대수 강의이다. [LU 분해]분해factorization, decomposition하나의 행렬을 2개 이상의 행렬 곱으로 표현한 식A = BCLU decomposition방정식을 푸는 방법 중 하나행 줄임 (row reduction)으로 A를 LU 분해하여 방정식을 푼다.L: a unit lower triangular matrix, 하삼각행렬U: echelon form, 사다리꼴행렬LU 분해 방법은 역행렬 방법보다 3배 빠르다.LU 디컴포지션으로 해 찾기Ax=bA=LU 이므로, LUx=bUx=y 로 치환하면, Ly=bLUx=Ly=b 이다.Ux에서 값을 구하면 y의 해가 나온다.Ly에서 값을 구하면 x의 해 b를 찾을 수 있다.L과 U는 변수.. 2024. 10. 2.
[스터디 노트] 14번째 선형대수 (240930), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.14번째는 선형대수 강의이다. [선형 방정식]정의linear equationa_1 x_1 + a_2 x_2 + ... + a_n x_n = bx에 대한 차수가 1차로 이루어진 방정식.x에 대한 차수가 2차이거나 음수면 비선형 방정식이다.선형 방정식 계a system of linear equation, linear system2개 이상의 선형 방정식이 있을 때 집합으로 부를 수 있다.같은 변수들을 포함한 선형 방정식이 1개 또는 그 이상의 집합을 뜻한다.같은 변수가 반드시 1개 이상 있어야 한다.해의 집합solution set선형 시스템에서 모든 가능한 해의 집합2개의 직선은 1개 점의 해를 갖는다.2개의 면은 직선으로 된 해의 집합을 갖는다.같은 솔루션 .. 2024. 9. 30.
[스터디 노트] 13번째 선형대수 (240927), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.13번째는 선형대수 강의이다. 12번째에서 데이터 분석과 관련된 파이썬을 마무리했다.13번째 부터는 선형대수에 대한 내용이다.옛날에 깃허브에 메모한 자료가 있는데 이어서 작성했다. [벡터 기본]벡터의 정의물건을 운반하는 물체, 캐리어의 라틴어사물의 움직임을 표현하기 위한 가장 기본적인 구성요소크기와 방향을 모두 가지는 양크기만 가지는 것을 스칼라벡터의 성질동등성크기와 방향만을 가진다.출발 지점은 아무 의미가 없다.출발 지점이 달라도 크기와 방향이 같으면 같은 벡터이다.영벡터크기가 0인 벡터를 영벡터라고 한다.음 벡터자신과 더했을 때 결과가 영벡터가 되는 벡터를 음벡터라 한다.a의 음벡터는 -a라고 표시한다.벡터의 성분벡터를 축에 projection하여 성.. 2024. 9. 27.
[스터디 노트] 12번째 파이썬 분석 기초 (240926), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.12번째는 파이썬 분석 기초 강의이다. [Series and DataFrame]데이터 프레임 만들기pd.DataFrame({ 'col1', [1, 2, 3, 4, 5], 'col2', [1, 2, 3, 4, 5], 'col3', [1, 2, 3, 4, 5], })컬럼 순서 변경순서 바꿔서 컬럼 넣고 다시 선언df = df[['name', 'type', 'hp', 'evolution','pokedex']]새 컬럼 생성df['col4'] = [1, 2, 3, 4, 5]hp가 40 이상인 데이터df[df['hp'] >= 40]원하는 컬럼만 출력df[['name', 'type']]df 복제df.copy() 사용같다고 선언하면 연결되서 에러 날 수 있음값 수정lo.. 2024. 9. 26.
[스터디 노트] 11번째 파이썬 분석 기초 (240925), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.11번째는 파이썬 분석 기초 강의이다. 수업이 반복되고 있어서 적응이 조금 되고 있다.ADsP 내용이 매우 많다. (6시그마... 읍읍) [Apply와 Map]매핑이 간단하면 map-람다 사용조건이 복잡해지면 함수 선언하고 apply 사용딕셔너리로 매핑map 함수 사용람다함수 사용df['mapped_col'] = df.col1.map(lambda x: dic[x])apply 함수 사용함수 하나 선언해서 사용하는 것df['mapped_col'] =df.col1.apply(changeCategory)구간 컬럼 정의 후 카운트매핑 후 카운트df['ages'] = df.col1.map(lambda x: x//10 *10)df_ans = df['ages'].val.. 2024. 9. 26.
[스터디 노트] 10번째 파이썬 분석 기초 (240924), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.10번째도 파이썬 분석 기초 강의이다. [grouping]빈도수 출력value_counts 함수 사용size 함수도 동일 기능df_ans = df.host_name.value_counts().sort_index()null을 세지 않으니 주의null도 세고 싶을 경우 dropna=True컬럼 2개를 기준으로 빈도수 출력groupby 사용df_ans = df.groupby(['col1','col2'], as_index=False).size()그룹별 특정 값의 기초통계 값agg 함수 사용df_ans = df.groupby('col1')['col2'].agg(['mean','var','max','min'])피벗 테이블unstack 함수 사용df_ans = df... 2024. 9. 24.
[스터디 노트] 9번째 파이썬 분석 기초 (240919), 제로베이스 데이터 분석 스쿨 내용 제로베이스 데이터 분석 스쿨 내용에 대한 기록이다.9번째는 파이썬 분석 기초 강의이다. 파이썬을 데이터 분석가가 사용하는 입장에서 주로 쓰는 코드를 공부한다. Python (분석)[판다스][기본 함수]상위 5개 행 출력df.head()행과 열의 갯수 출력df.shape전체 컬럼명 출력df.columns데이터프레임의 인덱스 구성 확인df.index0부터 시작해서 스텝 사이즈가 1이 디폴트null 갯수 확인df.isnull().sum()전체 컬럼 데이터 개수와 타입 체크df.info()numerical 변수 통계값 확인df.describe()한글 포함된 csv 로드df = pd.read_csv(path, encoding='euc-kr')컬럼의 고유값 확인개수 출력df['col'].nunique()이름 출력d.. 2024. 9. 19.