일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- type-hint
- Google Cloud Platform
- GCP
- 알파베타가지치기
- dynamic topic modeling
- Holdout
- word representation
- QANet
- semantic network
- 사회연결망분석
- 감성분석
- Min-Max 알고리즘
- 동적토픽모델링
- 임베딩
- sequential data
- 분류모델평가
- Enriching Word Vectors with Subword Information
- degree centrality
- word2vec
- 토픽모델링
- sensibleness
- topic modeling
- ROC-AUC Curve
- sbert
- 의미연결망
- 구글클라우드플랫폼
- hugging face
- Meena
- 머신러닝
- 허깅페이스
- Today
- Total
Dev.log
Dynamic Topic Modeling 본문
본 포스팅에서는 Blei와 Lafferty에 의해 고안되었으며, 주제 표현이 고정된 시간 간격으로 진화할 수 있도록 순차적으로 문서 처리를 가능케 하는 LDA의 확장형 모델인 Dynamic topic modeling에 대해 포스팅을 진행해 보도록 하겠습니다.
Dynamic topic modeling은 동적토픽모델링이라고도 불리며, 시계열에 의한 문서 집합에서 토픽의 진화를 분석하는데 사용 할 수 있는 생성 모델입니다. 기존의 LDA 의 경우 단어가 문서에 나타나는 순서와 문서가 코퍼스(corpus)에 나타나는 순서는 무시하는 반면, 동적토픽모델링에서는 문서는 시간별로 그룹화 되며, 각 문서는 이 전 그룹으로부터 진화된 토픽집합으로부터 온 것으로 가정됩니다. 또한 각 문서의 집합에서 관찰되지 않은 토픽이 혼합되어 표시되며, 각 토픽에 대응 하는 다항 분포로부터 해당 토픽의 단어가 연속적으로 나타내며 토픽은 시간의 지남에 따라 발전됩니다. 동적토픽모델링은 시계열에 따른 연속된 데이터의 토픽을 찾음으로써 해당 주제에서 확률적으로 발생 가능성이 있는 토픽을 제시함으로써 시간의 흐름에 따른 주제와 그 주제에 따른 토픽을 분석하는데 사용 할 수 있는 모델입니다.
예를 들어 2010년 ~ 2020년까지의 문서 집합이 있다고 가정할때, 2010년 ~ 2020년간의 주제의 변화를 분석하기 위해 연도 별로 문헌 집합을 나누어서 11개의 집합으로 분류하여 각 집합별로 LDA를 진행합니다. 이 후 주제 개수 k를 10으로 선정을 하게되면, 각 연도별로 주제가 10개씩 추출되고, 110개의 주제가 나오게됩니다. 그리고 현재의 주제들이 전 년도의 주제와 비슷해야한다는 조건, 즉 2010년의 n번째 주제는 2011년의 n번째 주제와 비슷해야한다는 조건을 추가하여 시계열에 의한 주제가 어떻게 변화하는지 확인 할 수 있습니다.
'자연어처리' 카테고리의 다른 글
Semantic Network Analysis (0) | 2022.04.23 |
---|---|
나이브 베이즈 분류기(Naive Bayes Classifier) (0) | 2022.04.20 |
토픽모델링이란 (0) | 2022.03.03 |
Latent Dirichlet Allocation(LDA) (0) | 2022.02.19 |
Word2Vec (0) | 2022.02.18 |