본문 바로가기

Python 과 머신러닝/III. 머신러닝 모델12

[Python 머신러닝] 8장. 군집분석 (Cluster Analysis) 군집분석이란? 서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업 또는 이에 기반한 분석을 의미한다. - 유사도가 높은 데이터끼리 그룹화 (대표적으로 유클리드 거리식 이용) - 계층형 클러스터링과 비계층형 클러스터링으로 분류 - 주요 알고리즘 : k-means, hierarchical > 군집분석의 특징 - 종속변수(y변수)가 없는 데이터 마이닝 기법 (비지도 학습) - 유클리드 거리 기반 유사 객체 묶음 (유사성 = 유클리드 거리) - 전체적인 데이터 구조를 파악하는데 이용 - 분석결과에 대한 가설 검정 없음 (타당성 검증 방법 없음) - 계층적 군집분석(탐색적), 비계층적 군집분석(확인적) - 고객 DB -> 알고리즘 적용 -> 패턴 추출(rule) -> 근거리 모형으로 군집 형성 - 척도 .. 2019. 10. 29.
[Python 머신러닝] 7장. 앙상블 (Ensemble) - (3) XGBoost 앙상블이 무엇인지, 부스팅이 무엇인지 궁금하다면 Click ☞ https://joyfuls.tistory.com/61 XGBoost 알고리즘 - 여러 개의 결정 트리를 임의적으로 학습하는 앙상블의 부스팅 유형 - 순차적 학습 방법 => 약한 분류기를 강한 분류기로 만듦 - 분류정확도는 우수하나, Outlier에 취약함 - '캐글' 도전 데이터 과학자에서 5년 연속 1위한 알고리즘 (캐글 : https://www.kaggle.com/) - 다양한 속성으로 모델 생성 • objective = "binary:logistic“, “reg:linear”“, “multi:softmax” : 이항 / 연속 / 다항 • max_depth = 2 : tree 구조가 간단한 경우 : 2 • nthread = 2 : cpu.. 2019. 10. 28.
[Python 머신러닝] 7장. 앙상블 (Ensemble) - (2) RandomForest 앙상블이 무엇인지, 배깅이 무엇인지 궁금하다면 Click ☞ https://joyfuls.tistory.com/61 Random Forest 알고리즘 - 여러 개의 결정 트리를 임의적으로 학습하는 앙상블의 배깅 유형 - 분류, 회귀 분석 모두 가능 (분류, 회귀 등에서 가장 많이 사용) - 별도 튜닝(스케일 조정) 과정 없음 - 장점 : 단일 트리 모델 단점 보완(성능, 과대적합) - 단점 : 대용량 데이터 셋으로 처리시간 증가 - 멀티코어 프로세스 이용 병렬처리 가능 - 배깅과의 차이점 : 배깅은 샘플 복원 추출 시 모든 설명변수 사용 but 랜덤포레스트는 a개의 설명변수만 복원 추출 - 랜덤포레스트는 일반적으로 배깅보다 성능이 우수 (설명변수가 많을 경우, 대체로 변수간 상관성이 높은 변수가 섞일 확.. 2019. 10. 25.
[Python 머신러닝] 7장. 앙상블 (Ensemble) - (1) 앙상블의 개념 앙상블 (Ensemble) 이란? - 여러 가지 우수한 학습 모델을 조합해 예측력을 향상시키는 모델 - 장점 : 단일 모델에 비해서 분류 성능 우수 - 단점 : 모델 결과의 해석이 어렵고, 예측 시간이 많이 소요됨 - 앙상블 알고리즘 : 배깅(Bagging), 부스팅(Boosting) - 부스팅(Boosting)은 맞추기 어려운 문제를 맞추는데 초점을 둠 분류 배깅 (Bagging) 부스팅 (Boosting) 공통점 전체 데이터 집합으로부터 복원 랜덤 샘플링(bootstrap)으로 훈련 집합 생성 차이점 병렬학습 : 각 모델의 결과를 조합하여 투표 결정 순차학습 : 현재모델 가중치 -> 다음 모델에 전달 특징 균일한 확률분포에 의해 훈련 집합 생성 분류하기 어려운 훈련 집합 생성 강점 과대적합에 강함 높.. 2019. 10. 25.