일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- 의미연결망
- Enriching Word Vectors with Subword Information
- topic modeling
- GCP
- 토픽모델링
- Google Cloud Platform
- 구글클라우드플랫폼
- Meena
- QANet
- word representation
- dynamic topic modeling
- word2vec
- sequential data
- Holdout
- degree centrality
- 사회연결망분석
- sensibleness
- hugging face
- type-hint
- semantic network
- 허깅페이스
- Min-Max 알고리즘
- 분류모델평가
- 알파베타가지치기
- 임베딩
- 동적토픽모델링
- sbert
- ROC-AUC Curve
- 감성분석
- Today
- Total
목록임베딩 (2)
Dev.log
본 포스팅에서는 FastText(Enriching Word Vectors with Subword Information)논문에 대해 리뷰해 보도록 하겠습니다. FastText는 2017년 ACL에서 발표되었으며, 오늘날 워드임베딩의 개념인 word vectors representation을 학습시키는 방법에 대한 논문입니다. 본 논문이 등장 할 때 까지만 해도 워드 임베딩(word embedding)이라는 단어 대신 distributed 혹은 continious word represnetation이라는 단어가 주로 사용되었습니다. FastText은 Word2vec을 타겟 논문으로 잡았으며, word2vec의 몇가지 한계점에 대해 언급했습니다. Word2Vec의 한계점 Word2Vec의 한계는 하나의 단어에..
Word2vec은 ‘word to vector’로, 단어를 벡터의 형태로 나타내려는 의미를 담고 있는데, 이는 단어를 벡터화하는 임베딩(embedding) 방법론이며 추론 기반의 분석기법이다. 단어를 추론하는 과정에서 신경망을 이용하고 이러한 과정에서 ‘Word2vec’방법론이 등장하였습니다. Vector 데이터를 다룰 때 데이터는 크게 스칼라(scalar)와 벡터 (vector)로 나누어집니다. 스칼라와 벡터는 물리학에서 어떠한 값의 ‘속성’을 나타 내는 개념이다. 스칼라는 수치로 표현할 수 있는 값으로, 대표적으로 넓이, 시간 온도 등이 있다. 벡터는 크기와 동시에 방향을 갖는 값으로 보통 좌표계에서 x,y,z 축으로 설명되며, 속도, 힘 등이 벡터 값이라 할 수 있다. 우리가 흔히 알고있는 머신러닝..