일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 구글클라우드플랫폼
- Google Cloud Platform
- word2vec
- dynamic topic modeling
- 머신러닝
- 토픽모델링
- 임베딩
- Min-Max 알고리즘
- type-hint
- 알파베타가지치기
- sequential data
- QANet
- 사회연결망분석
- degree centrality
- 허깅페이스
- 동적토픽모델링
- Holdout
- hugging face
- word representation
- topic modeling
- 감성분석
- ROC-AUC Curve
- sbert
- GCP
- 의미연결망
- sensibleness
- Meena
- 분류모델평가
- semantic network
- Enriching Word Vectors with Subword Information
- Today
- Total
목록자연어처리 (17)
Dev.log
본 포스팅은 토픽모델링 기법중 하나인 LDA에 대해 포스팅 하도록 하겠습니다 LDA는 전체 문서집합에 대해 각 문서에 어떠한 토픽들이 존재하는지 보여주는 확률 모델로써, 각각의 문서는 여러개의 토픽을 지니며, 이산 자료들에 대한 확률적 생성모델로 주로 텍스트 자료들에 주로 사용됩니다 (Y.Wang et al., 2009). LDA의 각각의 문서는 여러 개의 토픽을 지닐 수 있다는 점에서 pLSA와 유사하지만, 토픽들이 디리클레 분포를 따른다고 가정합니다. 디리클레 분포는 연속 확률분포의 하나로 $k$차원의 실수 벡터중 벡터의 요소가 양수이며, 모든 요소를 더한값이 1인 경우에 정의되는 확률 분포입니다. 더 들어가보자면, 디리클레 분포는 베타 분포를 항이 여러 개인 경우로 확대한 것입니다. 서로 독립이며 ..
Word2vec은 ‘word to vector’로, 단어를 벡터의 형태로 나타내려는 의미를 담고 있는데, 이는 단어를 벡터화하는 임베딩(embedding) 방법론이며 추론 기반의 분석기법이다. 단어를 추론하는 과정에서 신경망을 이용하고 이러한 과정에서 ‘Word2vec’방법론이 등장하였습니다. Vector 데이터를 다룰 때 데이터는 크게 스칼라(scalar)와 벡터 (vector)로 나누어집니다. 스칼라와 벡터는 물리학에서 어떠한 값의 ‘속성’을 나타 내는 개념이다. 스칼라는 수치로 표현할 수 있는 값으로, 대표적으로 넓이, 시간 온도 등이 있다. 벡터는 크기와 동시에 방향을 갖는 값으로 보통 좌표계에서 x,y,z 축으로 설명되며, 속도, 힘 등이 벡터 값이라 할 수 있다. 우리가 흔히 알고있는 머신러닝..
본 포스팅에서는 인공지능의 한 분야중 자연어 처리에 대해 포스팅을 진행 하겠습니다. 기계를 활용하여 데이터 분석을 진행할 경우, 사람이 직접 분석하는 것보다 빠른 속도로 대용량의 자료를 분석하는 것이 가능해집니다. 이러한 환경의 변화에 의해 데이터 집합의 범주가 확장된 빅데이터 분석이 사회적으로 일상화되고 있는데, 숫자형 데이터인 정형데이터 이외에도 사람이 이해할 수 있는 언어인 비정형데이터에 대한 분석도 빠른 속도로 발전하고 있는 추세 입니다. 여기서 비정형데이터는 숫자가 아닌 데이터를 지칭하는데, 대표적으로 언어, 이미지, 혹은 동영상 파일들을 예로 들 수 있습니다. 이 중 언어 처리하는 기술을 우리는 자연어처리(Natural Language Processing, NLP)라고 합니다. 한국정보통신기술..
안녕하세요. 이번 포스팅에서는 비정형 데이터(텍스트 데이터) 수집에 관해 포스팅을 진행하겠습니다. 비정형 데이터 분석을 진행하기위해 때론 데이터를 특정 웹 사이트로 부터 가져와야하는 일이 발생합니다. 이러한 일은 손으로 가져왔을 경우, 막대한 시간과 노력이 필요하며 대용량의 데이터를 한번에 가져오기란 쉽지 않습니다. 이에 크롤러(crawler)를 통해 데이터를 수집해야하는 일이 발생힙니다. 크롤러란? 웹 크롤링, 웹 크롤러는 인터넷 상에 있는 수많은 자료들을 가져와 프로그래밍하기 쉽게, 혹은 데이터 분석하기 쉬운 형태로 가공하는 작업을 의미합니다. 최근 데이터 분석에 대한 수요가 증가하고 이에 따라 자료를 얻는 원천으로 웹을 자주 드는데요, 이 웹을 가져와서 데이터 분석을 할 수 있는 자료의 형태로 바꾸..