비지도학습(Supervised Learning)
정답(레이블)이 없는 데이터를 기반으로, 숨겨진 패턴이나 데이터의 구조를 학습하는 방법
데이터에 대한 명확한 정답이 제공되지 않기 때문에, 비지도학습의 목적은 주어진 데이터에서 유사한 데이터끼리 그룹을 형성하거나, 데이터의 차원을 축소하는 것과 같은 작업을 주로 수행
비지도학습의 주요 특징
- 레이블이 없는 데이터
- 비지도학습은 지도학습과 달리 입력 데이터에 대한 명확한 출력값(레이블)이 없음
- 데이터 패턴 발견
- 비지도학습은 데이터 내에서 의미 있는 그룹이나 구조를 찾는 것이 주요 목표
- 데이터의 분포나 유사성 등을 기반으로 그룹이나 구조를 발견
- 탐색적 데이터 분석
- 비지도학습은 새로운 데이터를 탐색하고, 패턴을 찾거나, 데이터의 주요 특징을 추출하는 데 유용
비지도학습 주요 알고리즘
비지도학습의 알고리즘은 주로 데이터를 군집화하거나 차원을 축소하는 데 초점을 맞춤
1. 군집화(Clustering) 알고리즘 : 데이터 포인트들을 서로 비슷한 특징을 가진 그룹으로 군집
1) K-평균 클러스터링(K-Means Clustering)
- 가장 널리 사용되는 군집화 알고리즘 중 하나로, 주어진 데이터를 K개의 군집으로 나눔
- 각 군집은 해당 군집의 중심(centroid)과 가장 가까운 데이터 포인트들로 구성되고 알고리즘은 군집의 중심을 반복적으로 업데이트하면서 최적의 군집을 찾아냄
- 계산이 빠르고 간단하며 대규모 데이터에도 적용 가능하지만 K값(군집의 수)을 사전에 지정해야 하고, 군집의 모양이 구형이 아닌 경우 성능이 떨어질 수 있음
- ex) 고객 세분화, 이미지 분할, 문서 분류.
2) 계층적 클러스터링(Hierarchical Clustering)
- 데이터 포인트를 계층적으로 분할하는 방식
- 두 가지 접근법이 있으며, 병합적(agglomerative) 방법은 각 데이터 포인트를 개별 군집으로 시작해, 가장 유사한 군집끼리 합치며 하나의 군집으로 만드는 방식
- 분할적(divisive) 방법은 전체 데이터를 하나의 군집으로 시작해, 이를 점차 작은 군집으로 나누는 방식
- 군집의 수를 사전에 지정할 필요가 없고, 군집의 계층 구조를 시각화할 수 있지만 대규모 데이터에 적용하기 어렵고, 계산 비용이 많이 듬
- ex) 유전자 데이터 분석, 사회적 네트워크 분석.
3) DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- 밀도 기반 군집화 알고리즘으로, 밀집된 데이터 포인트를 하나의 군집으로 묶는 방식
- 특정 반경 내에 데이터 포인트가 어느 정도 이상 존재하면 군집을 형성하고, 밀도가 낮은 데이터는 군집에 속하지 않는 노이즈로 간주
- 비구형 군집을 잘 처리하고, 노이즈를 감지할 수 있지만 매개변수 설정에 따라 결과가 민감하게 달라질 수 있으며, 고차원 데이터에서는 성능이 저하될 수 있음
- ex) 이상 탐지, 위성 이미지 분석, 지리적 데이터 분석
2. 차원 축소(Dimensionality Reduction) 알고리즘 : 데이터의 주요 특징을 유지하면서 차원을 줄이는 기법
1) 주성분 분석(PCA, Principal Component Analysis)
- 데이터의 분산을 최대화하는 방향으로 새로운 축을 생성하여 고차원의 데이터를 더 낮은 차원으로 변환하는 기법
- 이를 통해 데이터의 중요한 정보를 최대한 유지하면서 차원을 축소합니다.
- 데이터를 시각화하거나 해석하기 쉽게 만들지만 변환된 축은 원래 데이터의 의미와 다를 수 있으며, 분산을 기준으로 차원을 축소하기 때문에 중요한 정보가 손실될 가능성도 있음
- ex) 데이터 시각화, 노이즈 제거, 고차원 데이터 분석.
2) t-SNE (t-Distributed Stochastic Neighbor Embedding)
- 고차원 데이터를 저차원(주로 2차원 또는 3차원)으로 변환하여 시각화하는 데 사용되는 기법
- PCA와 달리, 데이터의 국소적 구조를 잘 유지하며, 데이터 포인트 간의 유사성을 기반으로 저차원 상에서의 위치를 결정
- 고차원 데이터의 군집 구조를 시각적으로 잘 표현할 수 있지만 계산 비용이 크고, 매우 큰 데이터에 적용하기 어려움
- ex) 이미지나 텍스트 데이터의 시각화.
3) UMAP (Uniform Manifold Approximation and Projection)
- t-SNE와 유사한 목적을 가지지만 더 빠르고 효율적으로 고차원 데이터를 저차원으로 시각화하는 기법
- 데이터의 전체적인 구조뿐만 아니라 국소적 관계도 잘 유지
- t-SNE보다 빠르고, 큰 데이터셋에도 효과적으로 적용 가능하지만 하이퍼파라미터에 민감할 수 있으며, 작은 데이터셋에서는 효과가 덜할 수 있음
- ex) 고차원 데이터의 군집화 시각화, 임베딩 분석
3. 연관 규칙 학습(Association Rule Learning) : 데이터 항목들 간의 흥미로운 관계를 찾아내는 알고리즘
1) Apriori 알고리즘
- 빈번한 항목 집합을 찾고, 그로부터 연관 규칙을 생성하는 방법
- 알고리즘은 "부분 집합이 자주 발생하면 전체 집합도 자주 발생할 가능성이 높다"는 속성을 사용해 규칙을 찾음
- 계산이 간단하고 이해하기 쉽지만 데이터가 클수록 계산 비용이 급격히 증가
- ex) 장바구니 분석, 추천 시스템
2) FP-Growth (Frequent Pattern Growth)
- Apriori 알고리즘의 단점을 개선한 방식
- 빈번한 항목 집합을 트리 구조로 표현하여 연산을 효율적으로 수행
- Apriori보다 빠르게 연관 규칙을 찾을 수 있지만 트리 구조를 관리하는 데 메모리 사용량이 많아질 수 있음
- ex) 대규모 데이터셋의 연관 규칙 학습.