일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 임베딩
- topic modeling
- sequential data
- dynamic topic modeling
- 분류모델평가
- QANet
- word representation
- sensibleness
- word2vec
- semantic network
- 허깅페이스
- GCP
- type-hint
- 의미연결망
- Google Cloud Platform
- Enriching Word Vectors with Subword Information
- 토픽모델링
- sbert
- 감성분석
- 알파베타가지치기
- hugging face
- Holdout
- ROC-AUC Curve
- 구글클라우드플랫폼
- Meena
- 머신러닝
- 동적토픽모델링
- degree centrality
- 사회연결망분석
- Min-Max 알고리즘
- Today
- Total
목록자연어처리 (17)
Dev.log
Bag of Words에 대해서 Bag of Words Bag of Words는 단어들의 sequence에 대해서는 고려하지 않고 단어들의 frequency에 집중하여 텍스트 데이터를 수치화 시키는 방법을 의미합니다. 예를 들어 "나는 포켓몬빵을 사러 편의점에 갔다" 라는 문장이 주어졌다 가정해 봅시다. 이를 형태소 분석기를 사용해서 형태소 단위로 나눈후 해당 문장에 대해 Bag of Words를 만들어 보겠습니다. from konlpy.tag import Okt okt = Okt() def build_bag_of_words(document): tokenized_document = okt.morphs(document) word_to_index = {} bow = [] for word in tokenize..
자연어처리분야에서의 유사도(similarity)란 비슷한 정도를 나타내는 지표를 의미합니다. 하지만 유사도는 주관적인 지표로 작용될 수 있는데, 이를 정량화 하기위해 유클리디안 거리, 맨하튼 거리, 피어슨 상관 계수, 코사인 유사도, 자카드 유사도과 같은 수치로 표현하였습니다. 이러한 유사도 방법중 본 포스팅에서는자카드 유사도(Jaccard Simiarity)와 코사인 유사도(Cosine Similarity)에 대해 진행해 보도록하겠습니다. Jaccard 유사도 Jaccard 유사도는 두 집합간의 유사도를 측정하는 방법으로써, 두 집합을 문서로 적용시키면, 두 문서간의 교집합의 크기를 합집합 크기로 나눈 값을 의미합니다. 즉, 0에서 1까지의 범위의 두 데이터 세트에 대한 유사도 측정값으로써 1에 가까울..
이번 포스팅에서는 Peter Norving의 spelling corrector가 어떻게 작동하는지에 대해 포스팅을 진행해 보도록하겠습니다. Spelling Correcter의 확률적 이론 Call correction(w)은 w에 대해 가장 가능성이 높은 맞춤법 수정을 선택하려고 시도합니다. 하지만 확실히 알 수 있는 방법은 없습니다. 예를들어, "late"를 "late", "latest" 또는 "lattes"으로 수정해야 하기때문입니다. 따라서 가능한 모든 후보 중에서 원래 단어 w가 주어졌을 때 c가 의도한 수정일 확률을 최대화하는 수정 c를 찾으려고 합니다. Bayes정리에 따르면 아래와 같이 표현할 수 있습니다. 또한, P(w)는 모든 가능한 후보 c에 대해 동일하므로 아래와 같이 인수분해할 수 있..
SentiwordNet 인터넷 공간이 대중화됨에 따라 SNS와 같은 온라인 공간내에 존재하는 감정 정보를 추출 및 활용함으로써 특정 대상에 대한 인식을 파악하려는 연구들이 이루어졌습니다. 이러한 연구를 진행하기 위해 주로 인터넷 게시판, SNS, 블로그 등에 올려진 텍스트를 분석하여 주제에 대한 감정을 인식하고 분석하려는 연구를 감정분석(sentiment analysis)이라 할 수 있습니다. 이러한 분석을위해서는 어떤 표현이 긍적인지 부정인지를 정리해놓은 사전이 필요하게 됩니다. 하지만 사람이 사용하는 수만은 단어들을 일일히 수작업으로 긍정인지 부정인지 판단해서 정리하기는 어려운 일입니다. 그래서 Esuli와 Sebastiani는 SentiWordNet을 만들게 되었습니다. SentiWordNet는 감..