일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 허깅페이스
- hugging face
- 사회연결망분석
- 의미연결망
- Google Cloud Platform
- sbert
- 토픽모델링
- QANet
- word representation
- Meena
- sequential data
- Enriching Word Vectors with Subword Information
- 구글클라우드플랫폼
- 분류모델평가
- ROC-AUC Curve
- 동적토픽모델링
- topic modeling
- 알파베타가지치기
- sensibleness
- dynamic topic modeling
- degree centrality
- semantic network
- 머신러닝
- GCP
- word2vec
- type-hint
- Holdout
- 감성분석
- 임베딩
- Min-Max 알고리즘
- Today
- Total
목록전체 글 (54)
Dev.log
본 포스팅에서는 워드 임베딩(Word embedding)에 관련해서 2014년 Stanford University에서 발표한 논문인 Glove: Global Vectors for Word Representation에 대해 진행해 보도록 하겠습니다. 워드 임베딩에서 대표적으로 쓰이는 대표적으로 2가지 방법이 있습니다. LSA와 같이 말뭉치 전체에 대해 어떠한 통계적인 정보를 활용하는 방식이 있고, Word2Vec과 같이 단어들 간의 유사도를 반영해서 저차원 벡터공간으로 임베딩을 하는 방식이 있습니다. LSA와 같이 통계 기반 방식은 문서 전체에 대한 통계 정보를 잘반영해서 모델링을 할 수 있지만 단어 혹은 문서 간 유사도 측정이 어렵다는 단점이 존재합니다. 반면 Word2Vec과 같은 방식은 유사도 기반의..
본 포스팅에서는 Neural Probabilistic Language Model(NPLM)의 논문에 대해 리뷰를 해보도록 하겠습니다. Statical language model은 단어의 시퀀스(Sequence)의 probability function을 찾는데 의의를 둡니다. 하지만 본 논문에서는 이러한 경우 curse of dimensionality라는 차원의 저주가 발생한다고 하였습니다. Curse of dimensionality는 단어와 같은 sequential한 데이터를 학습 시킬때, 차원이 증가함에 따라 학습데이터의 수가 생성된 차원의 수보다 적어지면서 모델의 성능이 저하되는 현상을 의미합니다. Curse of dimensionality 기계에게 단어를 인식시키기 위해서는 단어를 숫자로 변환해주어..
본 포스팅에서는 FastText(Enriching Word Vectors with Subword Information)논문에 대해 리뷰해 보도록 하겠습니다. FastText는 2017년 ACL에서 발표되었으며, 오늘날 워드임베딩의 개념인 word vectors representation을 학습시키는 방법에 대한 논문입니다. 본 논문이 등장 할 때 까지만 해도 워드 임베딩(word embedding)이라는 단어 대신 distributed 혹은 continious word represnetation이라는 단어가 주로 사용되었습니다. FastText은 Word2vec을 타겟 논문으로 잡았으며, word2vec의 몇가지 한계점에 대해 언급했습니다. Word2Vec의 한계점 Word2Vec의 한계는 하나의 단어에..
본 포스팅에서는 자연어처리 분야중 하나인 토픽 모델링이라는 방법론에 대해 설명드리도록 하겠습니다. 사회적 인식을 파악하지 않고 기존의 경험에만 의존 하여 정책을 실현할 경우 처음에 의도했던 성과를 얻기 어려울 가능성이 존재합니다. 따라서 사회적 인식을 파악하기위해 전통적으로는 설문조사와 같은 여론조사를 통해 대중의 인식을 통계적 검증에 의해 추정하는 방법을 주로 사용했었습니다. 하지만 이러한 방법은 많은 시간과 비용이 필요하며 주관적 의견이 반영될 가능성이 존재합니다. 따라서 최근에는 위의 전통적 여론조사의 대안으로 정량적 방법론을 사용하여 기존의 한계를 극복하려는 방법들이 사용되어왔습니다. 이러한 한계를 극복하기위해서는 대용량 텍스트에 대해 정량적 분석을 진행 할 수 있는데, 이러한 분석 방법중 토픽모..