일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- hugging face
- degree centrality
- 구글클라우드플랫폼
- 사회연결망분석
- 분류모델평가
- semantic network
- topic modeling
- word2vec
- type-hint
- Min-Max 알고리즘
- sensibleness
- Enriching Word Vectors with Subword Information
- 토픽모델링
- 감성분석
- Google Cloud Platform
- Holdout
- QANet
- 의미연결망
- word representation
- 임베딩
- GCP
- 동적토픽모델링
- ROC-AUC Curve
- 알파베타가지치기
- sbert
- Meena
- dynamic topic modeling
- 머신러닝
- sequential data
- 허깅페이스
- Today
- Total
목록전체 글 (54)
Dev.log
Bag of Words에 대해서 Bag of Words Bag of Words는 단어들의 sequence에 대해서는 고려하지 않고 단어들의 frequency에 집중하여 텍스트 데이터를 수치화 시키는 방법을 의미합니다. 예를 들어 "나는 포켓몬빵을 사러 편의점에 갔다" 라는 문장이 주어졌다 가정해 봅시다. 이를 형태소 분석기를 사용해서 형태소 단위로 나눈후 해당 문장에 대해 Bag of Words를 만들어 보겠습니다. from konlpy.tag import Okt okt = Okt() def build_bag_of_words(document): tokenized_document = okt.morphs(document) word_to_index = {} bow = [] for word in tokenize..
자연어처리분야에서의 유사도(similarity)란 비슷한 정도를 나타내는 지표를 의미합니다. 하지만 유사도는 주관적인 지표로 작용될 수 있는데, 이를 정량화 하기위해 유클리디안 거리, 맨하튼 거리, 피어슨 상관 계수, 코사인 유사도, 자카드 유사도과 같은 수치로 표현하였습니다. 이러한 유사도 방법중 본 포스팅에서는자카드 유사도(Jaccard Simiarity)와 코사인 유사도(Cosine Similarity)에 대해 진행해 보도록하겠습니다. Jaccard 유사도 Jaccard 유사도는 두 집합간의 유사도를 측정하는 방법으로써, 두 집합을 문서로 적용시키면, 두 문서간의 교집합의 크기를 합집합 크기로 나눈 값을 의미합니다. 즉, 0에서 1까지의 범위의 두 데이터 세트에 대한 유사도 측정값으로써 1에 가까울..
문제설명 여러 언론사에서 쏟아지는 뉴스, 특히 속보성 뉴스를 보면 비슷비슷한 제목의 기사가 많아 정작 필요한 기사를 찾기가 어렵다. Daum 뉴스의 개발 업무를 맡게 된 신입사원 튜브는 사용자들이 편리하게 다양한 뉴스를 찾아볼 수 있도록 문제점을 개선하는 업무를 맡게 되었다. 개발의 방향을 잡기 위해 튜브는 우선 최근 화제가 되고 있는 "카카오 신입 개발자 공채" 관련 기사를 검색해보았다. 카카오 첫 공채..'블라인드' 방식 채용 카카오, 합병 후 첫 공채.. 블라인드 전형으로 개발자 채용 카카오, 블라인드 전형으로 신입 개발자 공채 카카오 공채, 신입 개발자 코딩 능력만 본다 카카오, 신입 공채.. "코딩 실력만 본다" 카카오 "코딩 능력만으로 2018 신입 개발자 뽑는다" 기사의 제목을 기준으로 "블..
이번 포스팅에서는 Peter Norving의 spelling corrector가 어떻게 작동하는지에 대해 포스팅을 진행해 보도록하겠습니다. Spelling Correcter의 확률적 이론 Call correction(w)은 w에 대해 가장 가능성이 높은 맞춤법 수정을 선택하려고 시도합니다. 하지만 확실히 알 수 있는 방법은 없습니다. 예를들어, "late"를 "late", "latest" 또는 "lattes"으로 수정해야 하기때문입니다. 따라서 가능한 모든 후보 중에서 원래 단어 w가 주어졌을 때 c가 의도한 수정일 확률을 최대화하는 수정 c를 찾으려고 합니다. Bayes정리에 따르면 아래와 같이 표현할 수 있습니다. 또한, P(w)는 모든 가능한 후보 c에 대해 동일하므로 아래와 같이 인수분해할 수 있..