학습이란? (Learning)
- "어떤 작업에 대해 특정 기준으로 측정한 성능이 새로운 경험으로 인해 향상되었다면, 그 프로그램은 어떤 작업에 대해서 특정 기준의 관점에서 새로운 경험으로 부터 "배웠다" 라고 할 수 있다.
- 학습 이후 새로운 데이터에 대하여 학습된 내용으로 처리하는 것
기계학습이란? (Machine Learning)
기계가 코드로 명시되지 않은 동작을 데이터로부터 학습하여 실행 할 수 있도록 하는 알고리즘
- 데이터로부터 일관된 패턴 또는 새로운 지식을 찾아내 학습하는 방법
- 학습된 알고리즘(Model)을 적용하여 정해진 업무를 처리
Machine Learning의 개념
머신러닝의 핵심 개념은 모델. 모델은 데이터를 입력받아 일정한 출력을 생성하는 함수로, 학습된 데이터로부터 패턴을 찾아 새로운 데이터를 처리할 수 있음. 모델 학습 과정에서 데이터를 훈련 데이터와 테스트 데이터로 나누어 학습과 평가를 진행하며, 모델의 성능을 최적화시킴
1. 머신 러닝 종류
1) 지도학습 (Supervised Learning)
- 입력 데이터(특징)와 정답(레이블)이 주어진 상태에서 모델을 학습시키는 방법
- 모델은 주어진 데이터를 통해 입력과 정답 사이의 관계를 학습하고, 새로운 데이터가 주어졌을 때 정답을 예측하는 데 사용
1-1. 적용 사례
- 분류(Classification): 데이터가 어떤 범주에 속하는지 예측 (ex.스팸 이메일 탐지, 특정 질병에 걸릴 확률)
- 회귀(Regression): 연속적인 값을 예측 (ex. 주택 가격 예측)
1-2. 주요 알고리즘
- 로지스틱 회귀(Logistic Regression): 이진 분류 문제에서 주로 사용(수치 예측)
- 의사결정 나무(Decision Tree): 데이터를 트리 구조로 나누어 예측하는 방식으로, 직관적이고 해석이 용이한 모델 (수치예측, 범주예측)
2) 비지도학습 (Unsupervised Learning)
- 정답(레이블)이 없는 데이터로부터 숨겨진 패턴이나 구조를 찾는 학습 방법
- 데이터를 그룹화하거나, 데이터의 기초적인 구조를 파악하는 데 주로 사용
2-1. 적용 사례
- 클러스터링(Clustering): 데이터 포인트를 유사한 특성을 가진 그룹으로 묶는 방법 (ex. 고객을 여러 그룹으로 나누어 맞춤형 마케팅 전략을 생성)
- 차원 축소(Dimensionality Reduction): 데이터의 특징을 줄여서 더 간결하게 표현하는 방법, 이를 통해 데이터 시각화나 노이즈 제거 등의 작업을 진행
2-2. 주요 알고리즘
- K-평균 클러스터링(K-Means Clustering): 데이터를 K개의 군집으로 나누는 대표적인 클러스터링 기법. 데이터의 중심을 찾고 각 데이터 포인트를 가장 가까운 중심에 할당하는 방식으로 동작.
- 주성분 분석(PCA, Principal Component Analysis): 데이터의 차원을 축소하여 중요한 특징만 남기는 방법. 고차원 데이터를 2차원이나 3차원으로 축소하여 시각화할 때 유용
구분 |
지도학습 |
비지도학습 |
데이터 |
입력 데이터, 정답 데이터 |
입력 데이터 |
사용 목적 |
예측 및 분류 |
데이터 패턴, 군집 찾기 |
주요 알고리즘 |
회귀, 분류 |
클러스트링, 차원 축소 |
적용 사례 |
이메일 스팸 필터링 |
고객 세분화 |