일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ROC-AUC Curve
- 토픽모델링
- 동적토픽모델링
- Google Cloud Platform
- QANet
- 허깅페이스
- sbert
- 감성분석
- 사회연결망분석
- sequential data
- semantic network
- 분류모델평가
- 임베딩
- topic modeling
- word representation
- Enriching Word Vectors with Subword Information
- GCP
- 구글클라우드플랫폼
- 머신러닝
- Min-Max 알고리즘
- dynamic topic modeling
- degree centrality
- sensibleness
- Holdout
- type-hint
- word2vec
- Meena
- 의미연결망
- 알파베타가지치기
- hugging face
- Today
- Total
목록머신러닝과 딥러닝 (12)
Dev.log
모델에 대한 성능 평가를 위해서 일반적으로는 정확도(accuracy)라는 기준을 주로 사용하는데, 정확도만을 이용하여 모델을 평가하기에는 충분하지 않을 수 있습니다. 예를 들어 이번 코로나 감염에 대해 머신러닝을 통해서 분류한다고 가정해 봅시다. 코로나의 발병률은 일반적으로 극히 낮기에 ‘코로나에 걸리지 않았다’라고 학습하게 되면 모델의 예측 정확도가 거의 100%에 수렴할 수 있습니다. 하지만 이 모델에서는 코로나에 진짜 걸렸는지를 잘 판별하고 싶었던 것이지, 코로나에 안 걸렸다는 사실을 판별하고 싶었던 것은 아닐 것입니다. 이러한 상황을 불균형 데이터(skewed class)문제라고 합니다. Confusion matrix 정확도만으로는 모델의 성능평가가 힘든데, 이때 주로 confusion matri..
이번 포스팅에서는 tree 구조의 앙상블 학습방법인 랜덤포레스트(Random Forest)에 대해 써보겠습니다. 랜덤포레스트는 기계학습의 일종으로, 분류, 회귀 분석 등 의 문제에 활용되며 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측등에 주로 사용됩니다. Decision Tree(의사결정나무) 먼저, 랜덤 포레스트를 이해하기 위해서는 랜덤 포레스트를 구성하는 decision tree에 대한 사전 지식이 요구됩니다. Decision tree는 의사 결정에 필요한 경로와 결과를 나무 구조로 시각화하여 분류와 예측을 수행하는 분석방법 입니다. Decision tree의 핵심은 노드(node) 로, 각 노드가 ‘yes or no’를 선택하는 하나의 분기점이라고 볼 수 있습니다. 이 개 념은..
머신러닝은(machine learning) 간단히 말하자면 기계가 데이터를 활용하여 스스로 학습을 하고 서로 다른 변수들 사이의 관계를 찾아내는 것이라고 할 수 있습니다. 여기서 기계란 프로그래밍화된 알고리즘(algorithm)을 말하며, 알고리즘을 가지고 학습하여 결과적으로 얻는 ‘문제해결 방법’을 모형(model)이라고 합니다. 알고리즘은 어느 정도 정형화되어 크게 3가지로 나뉘는데, 해결하려는 문제들에 따라 예측 (prediction), 분류(classification), 군집(clustering) 방식을 사용하게 됩니다. 머신러닝은 크게 세 가지 유형이 있습니다. 기계에게 정답을 주고 학습시키는 ‘지도 학습 (supervised learning)’과 정답을 주지 않고 학습시키는 ‘비지도 학습 (u..
최근 뉴스에서 인공지능이 하나의 주요 이슈로 부상하면서 우리는 머신러닝, 딥러닝이라는 말을 많이 들어보았을겁니다. 그럼 왜 인공지능이 주요이슈로 부상했을까요? 제가 생각하는 이유로는 인간이 생성하는 sequential data가 비로소 기계가 잘 처리할수 있게 되었기 떄문일거라 생각합니다. 여기서 sequential data는 '데이터 집합 내의 객체들이 어떤 순서를 가진 데이터'로 그 순서가 변경될시, 데이터의 고유 특성을 잃어버릴 수 있습니다. 예를 AAPL의 2022년 1월 31일 부터 2월 3일까지의 데이터를 확인해 보겠습니다. import yfinance df = yfinance.download('AAPL',start = '2022-01-31', end = '2022-02-03')['Open']..