일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- sensibleness
- 알파베타가지치기
- type-hint
- 머신러닝
- degree centrality
- hugging face
- Min-Max 알고리즘
- 임베딩
- semantic network
- word2vec
- sequential data
- 구글클라우드플랫폼
- GCP
- Holdout
- 감성분석
- Meena
- Enriching Word Vectors with Subword Information
- 토픽모델링
- Google Cloud Platform
- 의미연결망
- 분류모델평가
- 동적토픽모델링
- QANet
- sbert
- ROC-AUC Curve
- word representation
- 허깅페이스
- dynamic topic modeling
- 사회연결망분석
- topic modeling
- Today
- Total
목록전체 글 (54)
Dev.log
본 포스팅에서는 개발자들이 가장 많이? 이용한다고 할 수 있는 StackOverflow 라는 커뮤니티대해 소개해보겠습니다. 개발을 전문적으로 하시는 분들, 취미로 하시는 분들, 혹은 이제 막 배우기 시작한분들은 StackOverflow(스택오버플로우)라는 사이트에 한번씩은 방문해본 경험이 있으실겁니다. 특히 코드를 구현한후 에러를 디버깅할때, 에러로그를 구글검색할때 주로 방문해보았을겁니다. 스택오버플로우란? 해당 커뮤니티는 코딩에 대해 다양한 주제에 대해 질문과 답변이 이루어지는 곳 입니다. 주로 질문과 답변이 이루어지지만, 질문과 답변외에도 다양한 활동들을 즐길수 있습니다. 먼저 Stack Overflow는 좋은 질문 혹은 답변등을 통해 reputation이란걸 얻을 수 있는데, 이는 본 커뮤니티가 당..
본 포스팅은 토픽모델링 기법중 하나인 LDA에 대해 포스팅 하도록 하겠습니다 LDA는 전체 문서집합에 대해 각 문서에 어떠한 토픽들이 존재하는지 보여주는 확률 모델로써, 각각의 문서는 여러개의 토픽을 지니며, 이산 자료들에 대한 확률적 생성모델로 주로 텍스트 자료들에 주로 사용됩니다 (Y.Wang et al., 2009). LDA의 각각의 문서는 여러 개의 토픽을 지닐 수 있다는 점에서 pLSA와 유사하지만, 토픽들이 디리클레 분포를 따른다고 가정합니다. 디리클레 분포는 연속 확률분포의 하나로 $k$차원의 실수 벡터중 벡터의 요소가 양수이며, 모든 요소를 더한값이 1인 경우에 정의되는 확률 분포입니다. 더 들어가보자면, 디리클레 분포는 베타 분포를 항이 여러 개인 경우로 확대한 것입니다. 서로 독립이며 ..
이번 포스팅에서는 tree 구조의 앙상블 학습방법인 랜덤포레스트(Random Forest)에 대해 써보겠습니다. 랜덤포레스트는 기계학습의 일종으로, 분류, 회귀 분석 등 의 문제에 활용되며 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측등에 주로 사용됩니다. Decision Tree(의사결정나무) 먼저, 랜덤 포레스트를 이해하기 위해서는 랜덤 포레스트를 구성하는 decision tree에 대한 사전 지식이 요구됩니다. Decision tree는 의사 결정에 필요한 경로와 결과를 나무 구조로 시각화하여 분류와 예측을 수행하는 분석방법 입니다. Decision tree의 핵심은 노드(node) 로, 각 노드가 ‘yes or no’를 선택하는 하나의 분기점이라고 볼 수 있습니다. 이 개 념은..
머신러닝은(machine learning) 간단히 말하자면 기계가 데이터를 활용하여 스스로 학습을 하고 서로 다른 변수들 사이의 관계를 찾아내는 것이라고 할 수 있습니다. 여기서 기계란 프로그래밍화된 알고리즘(algorithm)을 말하며, 알고리즘을 가지고 학습하여 결과적으로 얻는 ‘문제해결 방법’을 모형(model)이라고 합니다. 알고리즘은 어느 정도 정형화되어 크게 3가지로 나뉘는데, 해결하려는 문제들에 따라 예측 (prediction), 분류(classification), 군집(clustering) 방식을 사용하게 됩니다. 머신러닝은 크게 세 가지 유형이 있습니다. 기계에게 정답을 주고 학습시키는 ‘지도 학습 (supervised learning)’과 정답을 주지 않고 학습시키는 ‘비지도 학습 (u..