Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 임베딩
- 의미연결망
- dynamic topic modeling
- 머신러닝
- word2vec
- hugging face
- sensibleness
- 허깅페이스
- degree centrality
- 토픽모델링
- 알파베타가지치기
- Google Cloud Platform
- type-hint
- QANet
- 분류모델평가
- Min-Max 알고리즘
- Meena
- sbert
- 감성분석
- 사회연결망분석
- GCP
- 동적토픽모델링
- semantic network
- word representation
- Enriching Word Vectors with Subword Information
- Holdout
- sequential data
- 구글클라우드플랫폼
- topic modeling
- ROC-AUC Curve
Archives
- Today
- Total
Dev.log
Glove 논문리뷰(수정중) 본문
본 포스팅에서는 워드 임베딩(Word embedding)에 관련해서 2014년 Stanford University에서 발표한 논문인 Glove: Global Vectors for Word Representation에 대해 진행해 보도록 하겠습니다.
워드 임베딩에서 대표적으로 쓰이는 대표적으로 2가지 방법이 있습니다. LSA와 같이 말뭉치 전체에 대해 어떠한 통계적인 정보를 활용하는 방식이 있고, Word2Vec과 같이 단어들 간의 유사도를 반영해서 저차원 벡터공간으로 임베딩을 하는 방식이 있습니다. LSA와 같이 통계 기반 방식은 문서 전체에 대한 통계 정보를 잘반영해서 모델링을 할 수 있지만 단어 혹은 문서 간 유사도 측정이 어렵다는 단점이 존재합니다. 반면 Word2Vec과 같은 방식은 유사도 기반의 어떠한 task에서는 강점을 보이지만, 말뭉치(corpus)에 대한 전체 정보를 잘 반영하지 못한다는 단점이 존재합니다. 따라서 Glove에서는 통계적 방식과 임베딩 방식의 2가지 장점을 모두 갖는 방법을 가져보자 라는 아이디어에서 출발한 논문으로 이해하면 됩니다.
LSA(Latent Sematic Analysis)
LSA는 turncated SVD 방식을 적용하여 차원축소를 진행한 방식입니다. 위의 그림을 보면 어떠한 데이터 A가 주어져있을때, 특이값 분해(singular value decomposition; SVD)로 r개의 교유값을 갖는 성분으로 분해가 가능하며
'논문리뷰' 카테고리의 다른 글
RoBERTa 논문리뷰 (0) | 2022.03.08 |
---|---|
QANet 논문리뷰 (0) | 2022.03.07 |
Neural Probabilistic Language Model 논문리뷰 (0) | 2022.03.05 |
FastText 논문리뷰 (0) | 2022.03.04 |
Attention is All you need 논문리뷰 (0) | 2022.02.18 |
Comments