Dev.log

Dynamic Topic Modeling 본문

자연어처리

Dynamic Topic Modeling

포켓몬빵 2022. 4. 11. 23:07

본 포스팅에서는 Blei와 Lafferty에 의 고안되었으며, 주제 표현이 고정된 시간 간격으로 화할 수 있도 순차적으로 문서 처리를 가능케 하는 LDA의 확장 모델인 Dynamic topic modeling에 대해 포스팅을 진행해 보도록 하겠습니다.

 

Dynamic topic modeling은 동적토픽모델링이라고도 불리며, 시계열에 의한 문서 합에서 토픽의 화를 분석하는데 사용 할 수 있는 생성 모델입니다. 기존의 LDA 의 경우 단어가 문서에 나나는 순서와 문서가 코퍼스(corpus)에 나타나는 순서는 무시하는 반면, 동적토픽모델링에서는 문서는 시간별로 그룹화 되며, 각 문서는 이 전 그룹으로부 진화된 토픽집합으로부 온 것으로 가정됩니다. 또한 각 문서의 집합에서 관찰되지 은 토픽이 혼합되어 표시되며, 각 토픽에 대응 하는 다 분포로부 해당 토픽의 단어가 연속적으로 나타내며 토픽은 시간의 지남  전됩니다. 동적토픽모델링은 시계열에 따른 연속된 데이터의 토픽을 찾음으로써 해당 주제에서 확률적으로 발생 가능성이 있는 토픽을 제시함으로 시간의 흐름 따른 주제와 그 주제에 따른 토픽을 분석하는데 사용 할 수 있는 모델입니다.

예를 들어 2010년 ~ 2020년까지의 문서 집합이 있다고 가정할때, 2010년 ~ 2020년간의 주제의 변화를 분석하기 위해 연도 별로 문헌 집합을 나누어서 11개의 집합으로 분류하여 각 집합별로 LDA를 진행합니다. 이 후 주제 개수 k를 10으로 선정을 하게되면, 각 연도별로 주제가 10개씩 추출되고, 110개의 주제가 나오게됩니다. 그리고 현재의 주제들이 전 년도의 주제와 비슷해야한다는 조건, 즉 2010년의 n번째 주제는 2011년의 n번째 주제와 비슷해야한다는 조건을 추가하여 시계열에 의한 주제가 어떻게 변화하는지 확인 할 수 있습니다. 

 

'자연어처리' 카테고리의 다른 글

Semantic Network Analysis  (0) 2022.04.23
나이브 베이즈 분류기(Naive Bayes Classifier)  (0) 2022.04.20
토픽모델링이란  (0) 2022.03.03
Latent Dirichlet Allocation(LDA)  (0) 2022.02.19
Word2Vec  (0) 2022.02.18
Comments