Dev.log

토픽모델링이란 본문

자연어처리

토픽모델링이란

포켓몬빵 2022. 3. 3. 22:06

본 포스팅에서는 자연어처리 분야중 하나인 토픽 모델링이라는 방법론에 대해 설명드리도록 하겠습니다.

 

사회적 인식을 파악하지 않고 기존의 경험에만 의존 하여 정책을 실현할 경우 처음에 의도했던 성과를 얻기 어려울 가능성이 존재합니다. 따라서 사회적 인식을 파악하기위해 전통적으로는 설문조사와 같은 여론조사를 통해 대중의 인식을 통계적 검증에 의해 추정하는 방법을 주로 사용했었습니다. 하지만 이러한 방법은 많은 시간과 비용이 필요하며 주관적 의견이 반영될 가능성이 존재합니다.

 

따라서 최근에는 위의 전통적 여론조사의 대안으로 정량적 방법론을 사용하여 기존의 한계를 극복하려는 방법들이 사용되어왔습니다. 이러한 한계를 극복하기위해서는 대용량 텍스트에 대해 정량적 분석을 진행 할 수 있는데, 이러한 분석 방법중 토픽모델링(Topic Modeling)이 라는 방법이 있습니다.

 

토픽모델링(Topic modeling)은 비정형 문서의 집합에서 발생 하는 잠재적인 주제를 발견하고 단어와 문서 사이의 관계를 통계적 모형으로 설명 하는 연구 방법입니다. 토픽모델링을 통해 다양한 문서 집합에서 유사한 의미라고 추정되는 문서들을 군집화 하여 표현 하고, 맥락상 의미가 유사 하다고 보이는 단어들을 주제별로 묶어 줄 수 있으므로, 특정 토픽에 대한 문서가 주어졌을때, 어떠한 단어가 타 단어들에 비해 자주 등장할 것이라고 기대할 수 있습니다.

 

LDA의 예시

 

예를 들어, 우리한테 사회과학에 대한 문서가 주어졌을때 '경제학'과 '경영학' 이라는 단어들의 등장 빈도가 높을 것이라 유추할수 있으며, 공학에 대한 문서가 주어졌을 때에는 '기계공학'과 '컴퓨터공학' 이라는 단어의 빈도가 높을것이라 유추할 수 있습니다. 대부분의 문서들은 서로 다른 비율로 주제를 다루는데, 어떠한 문서에서 사회과학에 대한 담론이 20%로 형성되어있고 공학이라는 담론이 80%로 형성되어진다면, 공학에 대한 담론이 사회과학에 대한 담론에 비해 4배가 높을것이라고 해석 할 수 있습니다. 토픽모델링은 통계적인 방법을 사용하여 문서의 집합을 검사하고 단어의 통계를 기반으로 문서내 토픽간의 비중이 어떠한지 알 수 있는 방법입니다.

 

초기 토픽모델링의 경우 pLSA(Probabilistic Latent Semantic Analysis)라는 확률적 잠재 의미 분석기법이 주로 사용되었으며, 이후 pLSA 확률 모형이 구축되지 않았던 단점을 보안하여 Latent Direchlet Allocation(LDA)가 Blei에 의해 고안되면서 대표적 토픽모델링 알고리즘으로 주로 사용되어지는 추세입니다.

'자연어처리' 카테고리의 다른 글

나이브 베이즈 분류기(Naive Bayes Classifier)  (0) 2022.04.20
Dynamic Topic Modeling  (0) 2022.04.11
Latent Dirichlet Allocation(LDA)  (0) 2022.02.19
Word2Vec  (0) 2022.02.18
자연어 처리의 Preprocessing  (0) 2022.02.18
Comments