본문 바로가기

Python 과 머신러닝/II. 데이터처리 문법8

[Python 머신러닝] 4장. Numpy 1. Numpy 패키지의 기초 (random 모듈, array/arrange/zeros 함수) 2. indexing & slicing 3. reshape & transpose """ Numpy 패키지 특징 - 다차원 배열, 선형대수 연산(벡터, 행렬 연산), 고속 처리 -> 수학/통계 함수 -> 범위 수정, 블럭 연산 -> indexing/slicing -> n차원 배열 자료구조 제공 """ 1. Numpy 패키지의 기초 import numpy as np # list vs numpy lst = [1,2,3] lst * 0.5 # error - 계산 불가능 lst2 = [i*0.5 for i in lst] lst2 # [0.5, 1.0, 1.5] # list -> numpy의 array.. 2019. 10. 22.
[Python 머신러닝] 3장. 그룹화 (group by & apply) 1. group by (그룹화) 2. apply (그룹에 함수 적용) 1. group by """ DataFrame 그룹화 - DF 객체 대상 특정 칼럼으로 그룹화 형식) DF.groupby('집단변수').수학통계() """ import pandas as pd iris = pd.read_csv("../data/iris.csv") iris.info() # 1. 집단변수 하나로 -> 전체 칼럼 대상으로 그룹객체 iris_g = iris.groupby('Species') iris_g #object info iris_g.size() ''' setosa 50 versicolor 50 virginica 50 ''' # 그룹의 평균 iris_g.mean() ''' Sepal.Length Sepal.. 2019. 10. 18.
[Python 머신러닝] 2장. 차트 시각화 - (3)시계열 데이터 3. 시계열 데이터 시각화 """ 1. 날짜형식 수정 2. 시계열 시각화 3. 이동평균 기능 -> 시각화 """ from datetime import datetime # 패키지 - 모듈 (이름 같음) import pandas as pd # csv file read import matplotlib.pyplot as plt # 시계열 시각화 # 1. 날짜형식 수정 # ex) 8-2-2019 -> 2019-08-02 cospi = pd.read_csv("../data/cospi.csv") cospi.info() ''' RangeIndex: 247 entries, 0 to 246 Data columns (total 6 columns): ''' cospi.head() cospi.tail() # 미국식 날짜 -> .. 2019. 10. 18.
[Python 머신러닝] 2장. 차트 시각화 - (2)pandas 객체 이용 2. pandas 객체를 이용한 시각화 """ 형식) obj.plot(param) : 오브젝트.plot( - 파라미터 넣기 - ) obj : Series(1차원), DataFrame(2차원) """ import pandas as pd import numpy as np # 1. Series 객체 시각화 ser = pd.Series(np.random.randn(10)) # 난수 10개로 series 객체 생성 ser ser.plot() ser.plot(color = 'g') # green # 2. DataFrame 객체 시각화 df = pd.DataFrame(np.random.randn(10, 4), columns = ['one','two','three','four']) # 10행 4열 랜덤데이터 -> 총 .. 2019. 10. 17.