본문 바로가기
반응형

전체보기119

[2-2] Word2Vec을 활용해 문장을 벡터로 변환하기 단어임베딩(Word Embedding)이란? - 단어 간의 관계를 반영하기 위해 단어를 벡터로 매핑하는 것을 말한다. - 대표적인 모델 : word2vec, GloVe, FastText Word2Vec 이란? - word2vec은 단어 임베딩 모델 중 하나이다. word2vec에서 가장 중요한 아이디어는 비슷한 분포를 가진 단어들은 비슷한 의미를 가진다는 것이다. - word2vec에서 사용하는 2가지 알고리즘 : CBOW(Continuous bag of words), Skip-gram ① CBOW : 주변 단어(맥락)로 타겟 단어를 예측하는 방식 - 크기가 작은 데이터셋에 적합하다. ② Skip-gram : CBOW와 정반대 방식으로 타겟 단어로 주변 단어(맥락)를 예측하는 방식 - 크기가 큰 데이터셋.. 2020. 7. 17.
[2-1] KoNLPy 사용해서 한국어 형태소 분석하기(자연어 처리) 한국어 형태소를 분석하기위해 KoNLPy 라이브러리를 사용한다. KoNLPy 라이브러리에는 5가지 종류{Hannanum, Kkma, Komoran, Mecab, Okt(Twitter)}의 형태소 분석기가 있다. 파이썬뿐만 아니라 다양한 프로그래밍 언어로 된 형태소 분석을 할 수 있는 라이브러리가 많이 존재한다. NLP : National Language Processing의 줄임말로 자연어 처리라는 뜻으로 텍스트에서 의미있는 정보를 분석, 추출, 이해하는 기술이다. 이 글에서는 Okt를 사용해 형태소 분석을 진행한다. Okt에서 제공하는 함수들 - morphs() : 텍스트를 형태소 단위로 나눈다. 옵션 : norm, stem. norm은 normalize의 약자로 문장의 정규화 여부를 정하는 옵션이다... 2020. 7. 16.
[1-2] 서포트 벡터 머신(Support Vector Machine) - 서포트 벡터 머신 : 데이터 분포를 나누는 지도 학습의 분류에 해당하는 모델 서포트 벡터 머신 알고리즘은 2차원뿐만 아니라 다차원의 벡터 공간을 2개로 잘 나눌 수 있는 경계를 찾기위한 알고리즘이다. 경계가 데이터들과 가장 멀리 떨어져 있어야 가장 적절한 경계다. 최적의 경계는 Maximum margin을 가진다. - 마진(margin) : 경계와 서포트 벡터 사이의 거리 - 두 개의 데이터를 구분하는 경계에 위치하는 데이터 포인트를 서포트 벡터라고 한다. - 마진의 값이 클 수록 최적의 경계로 분류한 것이다. 또한, 서포트 벡터 머신은 커널함수를 사용해 선형으로 분류할 수 없는 데이터를 분류할 수 있고 2차원의 데이터를 다차원으로 가져가서 분류할 수 있다. *서포트 벡터 머신의 동작 원리 어떻게 두.. 2020. 7. 10.
[1-1] 의사 결정 나무 - 의사 결정 나무 : 지도 학습의 분류에 해당하는 모델로, 연속적인 질문을 통해 예측 결과를 제공하는 예측 모델 - 지도 학습 : 정답을 알려주고 학습하게 하는 것. 과거의 데이터를 가지고 미래의 사건을 예측해야 할 때 주로 사용된다. - 지도 학습의 절차 : 학습 데이터에서 특징 추출 -> 라벨 값(정답 데이터)이 추가되어 모델 학습 *의사 결정 나무의 알고리즘 1. CART - 지니 계수 or 분산 감소량을 기준으로 데이터를 분류하는 알고리즘 - 두 개의 가지로만 분할한다. 1-1. 지니 계수란? - 경제적 불평등을 계수화한 것 - 완전 평등하면 0, 완전 불평등하다면 1값을 가진다. - 의사 결정 나무는 같은 특징을 가지는 데이터끼리 (비슷한 데이터) 묶으면서 분류해야한다. 그러면 지니 계수는 분.. 2020. 7. 10.
반응형