Python 과 머신러닝/III. 머신러닝 모델12 [Python 머신러닝] 6장. 분류 (Classification) (w/ scikit-learn) scikit-learn이란? - scikit-learn은 2007년 구글 썸머 코드에서 처음 구현됐으며 현재 파이썬으로 구현된 가장 유명한 기계 학습 오픈 소스 라이브러리 - 아나콘다에서 기본적으로 제공하는 라이브러리 중 하나 - 장점 : 라이브러리 외적으로는 scikit 스택을 사용하고 있기 때문에 다른 라이브러리와의 호환성이 좋다. 내적으로는 통일된 인터페이스를 가지고 있기 때문에 매우 간단하게 여러 기법을 적용할 수 있어 쉽고 빠르게 최상의 결과를 얻을 수 있다. - 라이브러리의 구성은 크게 지도 학습, 비지도 학습, 모델 선택 및 평가, 데이터 변환으로 나눌 수 있다 - scikit-learn 사용자 가이드 : http://scikit-learn.org/stable/user_guide.html -.. 2019. 10. 25. [Python 머신러닝] 5장. 회귀분석 - (2) 로지스틱 회귀분석 로지스틱 회귀분석이란? 선형회귀로 풀 수 없는 문제가 있다면? - 로지스틱 회귀는 두 개의 카테고리로 분류되는 범주형 데이터를 예측할 때 적합하다. - ex. 합격/불합격, 높음/낮음, 정답/오답 등 1) 오즈비 vs 로짓변환 오즈비(Odds ratio) : 0(실패)에 대한 1(성공)의 비율 ( 0 : no, 1 : yes ) - no인 상태와 비교하여 yes가 얼마나 높은지 낮은지 정량화한 것 - 오즈비 = p (success) / 1-p (fail) - p : y=1이 나올 확률, 1-p : y=1의 여사건 로짓(logit) 변환 - 오즈비에 log 함수 적용한 것 - 로짓 = log( p / 1-p ) => 로짓을 대상으로 회귀분석을 적용한 것이 로지스틱 회귀분석(Logistic Regressio.. 2019. 10. 24. [Python 머신러닝] 5장. 회귀분석 - (1) 선형 회귀분석 회귀분석이란? - 회귀분석(Regression Analysis)은 특정 변수(독립변수)가 다른 변수(종속변수)에 어떠한 영향을 미치는지, 인과관계를 분석하는 것 - 변수 a 값이 변수 b 값에 영향을 주는 관계(인과관계)라면, 변수 a는 독립변수이고 변수 b는 종속변수이다. - ex. 가격은 제품 만족도에 영향을 미치는가? - 회귀분석 : 변수 간의 인과관계 분석 VS 상관관계분석 : 변수 간의 관련성 분석 - 회귀분석은 '통계분석의 꽃'이라고 불릴 만큼 가장 강력하고 많이 이용된다. - 종속변수에 영향을 미치는 변수를 규명하고, 독립변수와 종속변수의 관련성 강도를 파악한다. - '회귀 방정식'을 도출하여 회귀선을 추정 => 독립변수의 변화에 따른 종속변수 변화를 예측한다. - 독립변수와 종속변수 모두 .. 2019. 10. 23. [Python 머신러닝] 지도학습과 비지도학습 기계 학습 (Machine Learning) 이란? - "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야" by 아서 사무엘 (1959) - 인공 지능의 한 분야 - 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 - ex. 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련 - 기계 학습의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. - 다양한 기계 학습의 응용이 존재 & 문자 인식은 이를 이용한 가장 잘 알려진 사례 - 알고리즘의 유형 : 크게 3가지로 분류 - 지도학습.. 2019. 10. 23. 이전 1 2 3 다음