회귀분석(Regression Analysis)
독립 변수(입력 값)와 종속 변수(출력 값) 사이의 관계를 모델링하여, 주어진 입력에 대한 연속적인 출력 값을 예측하는 머신러닝 알고리즘
주요 회귀분석 알고리즘
1. 선형 회귀 (Linear Regression)
- 가장 간단한 형태의 회귀 알고리즘으로 선형 회귀는 입력 변수와 출력 변수 간의 선형 관계(즉, 직선)를 찾는 방식으로 작동함
- 선형 회귀는 주어진 데이터를 기반으로 가장 적합한 직선을 그리기 위해 최소 제곱법(Ordinary Least Squares)을 사용해 가중치를 조정함
[ y는 예측 값, x는 입력 값, β는 가중치(계수) ]
|
특징 |
단점 |
- 모델이 단순하고 해석이 쉬움
- 선형 관계가 강한 데이터에 적합
|
- 비선형 데이터에서는 성능이 낮음
- 이상치(outlier)에 민감
|
2. 다항 회귀 (Polynomial Regression)
- 선형 회귀를 확장한 형태로, 독립 변수의 다항식 형태를 사용하여 비선형 관계를 모델링함
특징 |
단점 |
- 비선형 관계를 모델링할 수 있음
- 복잡한 패턴을 캡처하는데 유리
|
- 비선형 관계를 모델링할 수 있음
- 복잡한 패턴을 캡처하는데 유리
|
3. 릿지 회귀 (Ridge Regression)
- 규제(regularization)를 도입한 선형 회귀의 변형
- 반 선형 회귀에서 발생할 수 있는 다중공선성(multicollinearity) 문제를 해결하고, 과적합을 방지하기 위해 손실 함수에 패널티 항을 추가함
- 릿지 회귀의 목적은 가중치 값이 너무 커지지 않도록 제약을 두는 것
4. 라쏘 회귀 (Lasso Regression)
- 릿지 회귀와 유사하게 규제 항을 추가하지만, 릿지 회귀가 L2규제를 사용하는 반면, 라쏘 회귀는 L1 규제를 사용하여 가중치의 절대값을 패널티로 부여함
- 일부 가중치 값을 0으로 만들어 변수 선택(feature selection)의 역할도 수행
특징 |
단점 |
- 변수 선택에 유용
- 불필요한 변수를 자동으로 제거
|
|
5. Elastic Net
- 릿지 회귀와 라쏘 회귀의 장점을 결합한 알고리즘으로, L1과 L2규제를 동시에 사용함
- 릿지 회귀와 라쏘 회귀 사이에서 균형을 잡고, 두 가지 규제의 장점을 모두 활용할 수 있음
특징 |
단점 |
- 릿지와 라쏘 회귀의 장점을 모두 활용
- 상관관계가 높은 변수가 많은 데이터에 유리
|
|