일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- word representation
- 머신러닝
- topic modeling
- sensibleness
- GCP
- sequential data
- hugging face
- 동적토픽모델링
- 분류모델평가
- 사회연결망분석
- Enriching Word Vectors with Subword Information
- Min-Max 알고리즘
- degree centrality
- 임베딩
- Google Cloud Platform
- Meena
- ROC-AUC Curve
- 알파베타가지치기
- sbert
- 의미연결망
- word2vec
- Holdout
- 감성분석
- 구글클라우드플랫폼
- type-hint
- semantic network
- dynamic topic modeling
- 토픽모델링
- 허깅페이스
- QANet
- Today
- Total
목록자연어처리 (17)
Dev.log
Latent Direchlet Allocation(LDA) 토픽 모델링은 문서의 집합에서 핵심 토픽을 찾아내는 알고리즘을 의미합니다. 이는 검색 엔진, 고객 민원 시스템 등과 같이 문서의 주제를 알아내는 일이 중요한 곳에서 사용되기도 합니다. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 이러한 토픽 모델링의 대표적인 알고리즘으로 주어진 문서들에서 어떠한 주제를 찾는 확률모델이라고 할 수 있습니다. 예를 들어 아래와 같은 문서들이 존재한다고 가정해봅시다. 문서1 = [Quantum Mechanics, Higgs Particle, Maxwell's Equation, Theory of Relativity] 문서2 = [Shakespeare, Tolstoy, Faust, 1..
Hugging Face Hugging Face는 다양한 트랜스포머 모델과 학습스크립트를 제공하는 모듈입니다. 원래 PyTorch등과 같은 딥러닝 라이브러리 를 통해 layer나 module을 선언해주고 학습 스크립트 역시 전부 구현해야하지만 Hugging Face를 사용하면 이러한 수고를 덜 수 있다는 장점이 존재합니다. 즉, Hugging Face의 transformer를 통해 최첨단 사전 훈련 모델을 쉽게 다운로드하고 훈련할 수 있는 API를 사용할 수 있다고 이해할 수 있습니다. 또한 이런 사전 훈련된 모델을 사용하면 컴퓨팅 비용, 탄소 발자국을 줄이고 모델을 처음부터 훈련하는 시간을 절약할 수 있다는 장점이 존재합니다. Hugging Face의 transformers 모델들에서는 크게 아래와 같은..
사회적 인식을 파악하기 위해 언론 보도를 토대로 언론의 시각에 의해 여론을 지각할 수 있는 연구들이 존재하였습니다. 또한, 인터넷의 보급화와 스마트 기기의 보급률 상승은 온라인 공간의 보편화를 이루어 내며 다양한 연령이 스마트 기기를 사 용하여 매체를 접하고 소비하는 시간이 증가시켰습니다. 이러한 온라인 공간의 보편화로 인해 온라인 공간에서의 담론은 대중의 인식을 추정할 수 있는 방법으로 사용할 수 있습니다. 이에 사회의 시스템구조를 파악하기 위해 사람, 사물, 조직 간의 관계를 네트워크 관점에서 분석하는 social network analaysis와 semantic network analysis가 등장하였습니다. Semantic network analysis은 social network analaysi..
SBERT SBERT(Sentence BERT)는 BERT의 임베딩 성능을 향상시킨 모델입니다. BERT로 부터 문장벡터를 얻을때는 BERT의 [CLS] 토큰의 출력 벡터를 문장 벡터로 간주하거나 각 task에 맞춰 모든 단어의 의미를 반영할건지 중요한 단어의 의미를 반영할건지에 따라 각각 모든 단어의 출력 벡터에 대해서 average pooling 과 max pooling을 수행하여 문장 벡터로 얻을 수 있습니다. SBERT는 이와 같은 BERT의 문장 임베딩을 응용하여 BERT에 fine tunning을 진행합니다. SBERT는 크게 2가지 방법으로 학습이 진행된다고 할 수 있는데, NLI(Natural Language Inferencing) 문제와 같은 문장 쌍분류 테스크를 통해 fine tunni..