일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- word representation
- 구글클라우드플랫폼
- degree centrality
- 감성분석
- word2vec
- Google Cloud Platform
- type-hint
- sbert
- 토픽모델링
- 머신러닝
- topic modeling
- 동적토픽모델링
- semantic network
- 분류모델평가
- QANet
- 알파베타가지치기
- Holdout
- Enriching Word Vectors with Subword Information
- 의미연결망
- 사회연결망분석
- Meena
- sensibleness
- Min-Max 알고리즘
- dynamic topic modeling
- sequential data
- GCP
- hugging face
- ROC-AUC Curve
- 허깅페이스
- 임베딩
- Today
- Total
목록머신러닝과 딥러닝 (12)
Dev.log
Clustering(클러스터링) 혹은 군집분석이라고도 불리는 방법은 유사한 데이터들 끼리 그룹화를 시키는 비지도 학습이라고 할 수 있습니다. 클러스터링의 방법으로는 밀도기반 클러스터링인 DBSCAN, 중심기반인 K-means와 같은 다양한 방법들이 존재하며 이번 포스팅에서는 계층적 군집분석이라고도 불리는 hierarchical clustering에 대해서 진행해 보도록하겠습니다. Hierarchical clustering이란 Hierarchical clustering은 데이터를 가까운 집단부터 순차적이며 계층적으로 군집화 하는 방식입니다. 즉, 트리구조를 통해 각 데이터들을 순차적, 계층적으로 비슷한 그룹과 묶어 클러스터링을 진행을 한다 라고 이해하면 될것 같습니다. 또한 계층적 구조로인해 DBSCAN과..
이번 포스팅에서는 DTW(Dynamic time wrapping)인 동적 시간 접합에 대해 알아보도록 하겠습니다. Warping이라는 사전적 뜻에서도 알 수 있듯이 DTW는 속도나 길이에 따라 움직임이 다른 두개의 시계열 데이터가 주어졌을 때, 그 둘의 유사도를 알아낼때 사용되는 방법중 하나라고 생각하면 될것 같습니다. 일반적으로 두 시계열 데이터의 유사도를 구할때 사용하는 척도인 euclidean distance를 사용하게되면 같은 timeline 선상에 위치한 데이터를 기반으로 계산하게되는데, 이렇게 되면 데이터의 신호의 떨림이나 움직임이 심해지게되면 유사성을 찾기 힘드며, 무엇보다 길이가 다른 시계열은 유사도를 측정할 수 없다는 단점이 존재합니다. 비록 euclidean distance를 통해 시계..
본 포스팅에서는 밀도기반 클러스터링이라고도 불리는 DBSCAN(Density based spatial clustring of applications with noise)에 대해서 진행해 보도록 하겠습니다. DBSCAN은 19996년도의 A density-based algorithm for discovering clusters in large spatial database with noise 라는 논문에서 제시된 클러스터링 기법입니다. DBSCAN은 K-means와 같이 군집간의 거리나 중심을 이용한 클러스터링이 아닌 밀도를 통해 군집화를 하는 방법에 대해 제시를 하였는데, 이는 '동일한 클래스에 속하는 데이터는 서로 근접하게 분포할것이다' 라는 가정으로 동작하는 클러스터링이라 이해하면 될것 같습니다. 이..
이번 포스팅에서는 프로세스마이닝에 대해 진행해 보도록 하겠습니다. 프로세스마이닝은 데이터마이닝의 한 분야로 프로세스 자체에 집중하는 방법이라고 할 수 있을것 같습니다. 예를 들어 환자가 감기에 걸려서 병원에서 진단을 받아보고자 합니다. 환자가 병원에가서 진료를 받기까지 진료예약, 외래각과접수, 외래진료실 검사예약, 원무수납, 처방전발급과 같은 다양한과정을 거치게 됩니다. 데이터 마이닝이 이러한 과정에서 결과적으로 무엇이 일어났는가와 무엇이 일어날까에 집중을 한다면, 프로세스 마이닝은 공정 과정 전체를 분석하고 분석결과를 시각화해서 해당 프로세스를 더 효율적으로 개선하고 발전시키는 방법론이라고 할 수 있습니다. 즉, 어떠한 프로세스에서 가장 일이 많이 몰리는 곳이나 가장 시간이 많이 소요되는 병목지점등과 ..