반응형 Study86 [2-1] KoNLPy 사용해서 한국어 형태소 분석하기(자연어 처리) 한국어 형태소를 분석하기위해 KoNLPy 라이브러리를 사용한다. KoNLPy 라이브러리에는 5가지 종류{Hannanum, Kkma, Komoran, Mecab, Okt(Twitter)}의 형태소 분석기가 있다. 파이썬뿐만 아니라 다양한 프로그래밍 언어로 된 형태소 분석을 할 수 있는 라이브러리가 많이 존재한다. NLP : National Language Processing의 줄임말로 자연어 처리라는 뜻으로 텍스트에서 의미있는 정보를 분석, 추출, 이해하는 기술이다. 이 글에서는 Okt를 사용해 형태소 분석을 진행한다. Okt에서 제공하는 함수들 - morphs() : 텍스트를 형태소 단위로 나눈다. 옵션 : norm, stem. norm은 normalize의 약자로 문장의 정규화 여부를 정하는 옵션이다... 2020. 7. 16. [1-2] 서포트 벡터 머신(Support Vector Machine) - 서포트 벡터 머신 : 데이터 분포를 나누는 지도 학습의 분류에 해당하는 모델 서포트 벡터 머신 알고리즘은 2차원뿐만 아니라 다차원의 벡터 공간을 2개로 잘 나눌 수 있는 경계를 찾기위한 알고리즘이다. 경계가 데이터들과 가장 멀리 떨어져 있어야 가장 적절한 경계다. 최적의 경계는 Maximum margin을 가진다. - 마진(margin) : 경계와 서포트 벡터 사이의 거리 - 두 개의 데이터를 구분하는 경계에 위치하는 데이터 포인트를 서포트 벡터라고 한다. - 마진의 값이 클 수록 최적의 경계로 분류한 것이다. 또한, 서포트 벡터 머신은 커널함수를 사용해 선형으로 분류할 수 없는 데이터를 분류할 수 있고 2차원의 데이터를 다차원으로 가져가서 분류할 수 있다. *서포트 벡터 머신의 동작 원리 어떻게 두.. 2020. 7. 10. [1-1] 의사 결정 나무 - 의사 결정 나무 : 지도 학습의 분류에 해당하는 모델로, 연속적인 질문을 통해 예측 결과를 제공하는 예측 모델 - 지도 학습 : 정답을 알려주고 학습하게 하는 것. 과거의 데이터를 가지고 미래의 사건을 예측해야 할 때 주로 사용된다. - 지도 학습의 절차 : 학습 데이터에서 특징 추출 -> 라벨 값(정답 데이터)이 추가되어 모델 학습 *의사 결정 나무의 알고리즘 1. CART - 지니 계수 or 분산 감소량을 기준으로 데이터를 분류하는 알고리즘 - 두 개의 가지로만 분할한다. 1-1. 지니 계수란? - 경제적 불평등을 계수화한 것 - 완전 평등하면 0, 완전 불평등하다면 1값을 가진다. - 의사 결정 나무는 같은 특징을 가지는 데이터끼리 (비슷한 데이터) 묶으면서 분류해야한다. 그러면 지니 계수는 분.. 2020. 7. 10. [6] MIPS 시스템 1-1. MIPS 시스템이란? - 밉스 테크놀로지에서 개발한 RISC 기반 ISA이다. ISA는 Instruction Set Architecture의 약자로 명령어 집합 구조라는 뜻이고 마이크로프로세서가 인식해서 기능을 이해하고 실행할 수 있는 기계어 명령어를 말한다. 더 알고 싶으면 아래 링크에 잘 설명되어 있다. https://velog.io/@shinychan95/%EC%BB%B4%ED%93%A8%ED%84%B0-%EA%B5%AC%EC%A1%B0-2%EA%B0%95-%EC%A0%95%EB%A6%AC-feat.-ISA 컴퓨터 구조 2강 정리 (feat. ISA) 모든 내용을 정리하는 것이 아니라, 주 맥락이나 파헤치며 배우고 깨닫게 된 부분에 대해서 정리합니다. velog.io - MIPS는 4가지의.. 2020. 6. 9. 이전 1 ··· 16 17 18 19 20 21 22 다음 반응형