본문 바로가기

Python 과 머신러닝/III. 머신러닝 모델12

[Python 머신러닝] 10장. 텍스트 마이닝 - (2) 형태소 분석 & 시각화 (w/ konlpy, word cloud) 실습 전 준비사항 (미리 깔아둬야하는 패키지 등) ☞ [Python 머신러닝] 10장. 텍스트 마이닝 (Text Mining) 개요 & 패키지 준비 1. 형태소 분석 (konlpy) 2. 시각화 (word cloud) 3. 뉴스 페이지 크롤링한 데이터 시각화 * 형태소 : 언어에 있어서 분해 가능한 최소한의 의미를 가진 단위 1. 형태소 분석 (konlpy) from konlpy.tag import Kkma # class # 1. Kkma object kkma = Kkma() # 2. 문단 -> 문장 (sentences) para = "형태소 분석을 시작합니다. 나는 홍길동 이고 age는 28세 입니다." ex_sent = kkma.sentences(para) len(ex_sent) .. 2019. 10. 31.
[Python 머신러닝] 10장. 텍스트 마이닝 - (1) 크롤링 (Crawling) 실습 전 준비사항 (미리 깔아둬야하는 패키지 등) ☞ [Python 머신러닝] 10장. 텍스트 마이닝 (Text Mining) 개요 & 패키지 준비 1. URL Request & HTML Parsing 2. tag 이름으로 찾기 3. 선택자(selector) 이용하기 4. 뉴스 페이지 크롤링해보기 1. URL Request & HTML Parsing """ URL Request - 태그 이름 찾기 : find('a'), find_all('a') """ from bs4 import BeautifulSoup # html 파싱 (html 문서로 변환시켜주는 역할) import urllib.request as req # 원격 서버 파일 요청 url = "http://www.naver.com/.. 2019. 10. 31.
[Python 머신러닝] 10장. 텍스트 마이닝 (Text Mining) 개요 & 패키지 준비 텍스트 마이닝 (Text Mining) 이란? - 비/반정형 텍스트 데이터에서 자연어처리(Natural Language Processing)기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. > 텍스트 마이닝의 주요 기술 - 자연어 처리 (파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출) - 언어모델링 (언어 감지, 규칙기반 개체명과 상용어 인식) - 기계 학습 알고리즘 (반복훈련을 통해 습득한 정보 사용능력을 개선) - 마이닝 기술 (각종 통계적 기법을 활용한 정보 분류 및 분석 기술) 텍스트 마이닝의 3단계 & 각 단계에서 필요한 준비 1. 문서 수집 (Crawling) 2. 형태소 분석 (NLP) (Konlpy) 3. 시각화 (Word Cloud) 1. 문서 수집 .. 2019. 10. 31.
[Python 머신러닝] 9장. 추천시스템 (Recommendation System) 1. 추천시스템이란? - 추천 시스템 (Recommender/Recommendation System) - 정보 필터링(IF) 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보를 추천하는 시스템 - 정보 : 영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등 >추천 시스템 사례 - 넷플릭스 : 고객의 영화 평가를 바탕으로 특정 고객에게 영화 추천 서비스 -> 고객 이탈률 4% 이하 - 아마존 : 협업필터링 알고리즘 기반 추천 시스템 적용 (제품 웹페이지 방문기록, 쇼핑장바구니, 구매 상품 선호 등 다양한 정보 -> Item 기반 추천시스템) 2. 추천 알고리즘 ① 협업 필터링 (Collaborative Filtering : CF) - 구매/소비 패턴이 비슷한 사용자를 한 집단으로 보고 그 집단에 속한 소.. 2019. 10. 30.