일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 허깅페이스
- degree centrality
- hugging face
- 분류모델평가
- QANet
- Min-Max 알고리즘
- 사회연결망분석
- topic modeling
- Google Cloud Platform
- GCP
- 감성분석
- sbert
- dynamic topic modeling
- 동적토픽모델링
- Holdout
- semantic network
- 머신러닝
- 구글클라우드플랫폼
- word2vec
- 임베딩
- 알파베타가지치기
- ROC-AUC Curve
- sensibleness
- word representation
- 토픽모델링
- 의미연결망
- Meena
- sequential data
- Enriching Word Vectors with Subword Information
- type-hint
- Today
- Total
Dev.log
머신러닝(Machine Learning; 기계학습) 이란? 본문
머신러닝은(machine learning) 간단히 말하자면 기계가 데이터를 활용하여 스스로 학습을 하고 서로 다른 변수들 사이의 관계를 찾아내는 것이라고 할 수 있습니다. 여기서 기계란 프로그래밍화된 알고리즘(algorithm)을 말하며, 알고리즘을 가지고 학습하여 결과적으로 얻는 ‘문제해결 방법’을 모형(model)이라고 합니다. 알고리즘은 어느 정도 정형화되어 크게 3가지로 나뉘는데, 해결하려는 문제들에 따라 예측 (prediction), 분류(classification), 군집(clustering) 방식을 사용하게 됩니다.
머신러닝은 크게 세 가지 유형이 있습니다. 기계에게 정답을 주고 학습시키는 ‘지도 학습 (supervised learning)’과 정답을 주지 않고 학습시키는 ‘비지도 학습 (unsupervised learning)’이 있고, 강화학습(reinforced learning)으로 분류 된다. 각 유형의 차이점은 아래와 같다. 답은 보통 레이블(label)이라고 하며, 프 로그램에서 이 레이블 데이터가 있는지를 확인하면 어떠한 학습인지 금방 구분 할 수 있습니다.
구분 | 지도 학습 | 비지도 학습 | 강화 학습 |
주요 알고리즘
|
회귀분석, 분류분석, 랭킹 / 추천 등 |
군집화, 토픽모델링, 밀도추정, 차원축소 등
|
보상학습, Q-learning 등
|
특징
|
예측하는 시스템을 만들 때 적합
|
패턴을 추출하는 시스템을 만들 때 적합
|
피드백을 통해 결과를 최대화하도록 학습
|
또한, 머신러닝의 프로세스는 아래와 같이 이루어진다고 할 수 있습니다.
데이터 정리 → 데이터 분리(훈련/검증) → 알고리즘 준 비 → 모형 학습(훈련 데이터) → 예측(검증 데이터) → 모형 평가 → 모형 활용
먼저 데이터 정리 단계는 관측데이트를 속성 혹은 variable을 기준으로 정리하여 컴퓨터가 이해할 수 있게 만들어주는 작업으로, Pandas 상에서 데이터프레임으로 만드는 과정이 이에 해당합니다. 데이터 분리는 모형학습을 위해 데이터를 훈련 데이터(train data)와 검증 데이터(test data) 로 나누어주는 것을 의미합니다. 훈련데이터는 학습에 실제로 사용되는 데이터를 의미하며, 검증 데이터는 학습이 끝난 후에 모형의 예측능력을 평가하고 검증하기 위하여 사용되는 데이터를 말합니다.
예측능력 평가와 검증에는 여러 방 식들이 존재합니다. 모형은 예측능력은 Confusion Matrix 평가점수, 정확도 점수, 정밀도 점수, 재현도 점수, F-1 점수 등을 통해 평가한다. 모형의 검증은 보 통 Holdout, K-fold 등의 교차검증을 통해서 진행되며, 이는 학습 데이터와 검증 데이터를 비교하는 작업을 의미합니다.
'머신러닝과 딥러닝' 카테고리의 다른 글
Deep Neural Network (0) | 2022.05.31 |
---|---|
교차검증 (0) | 2022.03.02 |
Confusion matrix (0) | 2022.02.21 |
랜덤포레스트(Random Forest) (0) | 2022.02.19 |
CNN(Convolutional neural network)의 배경 (0) | 2022.02.17 |