데이터분석
-
데이터 분석 - 시계열 데이터
시계열 데이터란 시간의 흐름에 따라 수집된 데이터로, 보통 날짜나 시간 정보를 포함하고 있는 데이터. 시계열 데이터를 분석할 때 추세(Trend), 계절성(Seasonality), 주기성(Cyclic Patterns), 불규칙성(Noise) 등의 요소를 고려하여 데이터를 분석함 1. 시계열 데이터의 주요 개념 추세(Trend): 데이터가 장기적으로 증가하거나 감소하는 경향계절성(Seasonality): 일정한 주기로 반복되는 패턴 (예: 월별 기온 변화)주기성(Cyclic Patterns): 일정한 주기가 있지만 반드시 고정된 기간은 아님 (예: 경기 순환)불규칙성(Noise): 예측할 수 없는 변동 요소 2. 시계열 데이터 전처리 방법 2-1. 날짜 데이터 변환 (pd.to_datetime(), 인덱스..
2025.02.13 21:30 -
데이터 분석 - 상관관계 히트맵
상관관계 히트맵이란? 데이터를 분석할 때 변수들 간의 관계를 파악하는 것이 매우 중요함. 특히 하나의 변수가 다른 변수와 얼마나 관련이 있는지를 분석하기 위해서 주로 상관관계를 확인을 하며, 이를 좀 더 직관적으로 확인하기 위해 시각화한 것이 상관관계 히트맵. 1. 상관관계란? 상관관계는 두 변수 간의 선형적인 관계를 나타내는 값으로, 일반적으로 피어슨 상관계수(Pearson correlation coefficient) 를 사용하며 상관계수는 다음과 같은 범위를 가집니다:1에 가까울수록: 강한 양의 상관관계 (한 변수가 증가하면 다른 변수도 증가) 양의 상관관계(Positive Correlation): 한 변수가 증가할 때 다른 변수도 증가 0에 가까울수록: 거의 상관이 없음-1에 가까울수록: 강한 음의..
2025.02.11 21:00 -
데이터 분석 - 가설 검정
가설 검정데이터를 기반으로 특정 주장이나 가설이 맞는지 검토하는 과정 가설 검정이란?두 가지 가설을 비교하여 데이터를 통해 어떤 가설이 더 신뢰할 수 있는지를 판단하는 과정데이터를 기반으로 우리의 주장이나 생각이 통계적으로 의미가 있는지 확인 가설 검정의 기본 구성요소귀무가설(null hypothesis, H₀): 반증하고자 하는 기본 가설로, "변화가 없다" 또는 "효과가 없다"는 내용을 담고 있음대립가설(alternative hypothesis, H₁): 입증하고자 하는 가설로, "변화가 있다" 또는 "효과가 있다"는 내용을 담고 있음ex) 새로운 약이 기존 약보다 효과가 있는지 검정할 때H₀: 새로운 약은 기존 약과 효과가 같다.H₁: 새로운 약은 기존 약보다 효과가 더 크다. 가설 검정의 과정가설..
2025.01.08 21:00 -
데이터 분석 - 분포 분석
분포 분석 데이터를 보다 깊이 이해하기 위해 반드시 필요한 단계 중 하나로, 분포는 데이터가 어떻게 퍼져 있는지, 어떤 패턴을 가지고 있는지 보여주는 방법으로 이를 통해 데이터의 특성과 데이터 속에 숨겨진 의미를 발견 할 수 있음. 분포란?분포는 데이터 값들이 특정 범위 내에서 어떻게 흩어져 있는지에 대한 정보ex) 학생들의 점수가 대부분 70~90점 사이에 몰려 있다면, 이 데이터는 중앙값 근처에 밀집된 분포 분포의 주요 지표 1) 평균(Mean) 모든 데이터를 더한 후 데이터의 개수로 나눈 값데이터를 대표하는 값으로 많이 사용ex) 5명의 학생 점수가 70, 80, 90, 100, 60이라면 평균은 (70+80+90+100+60)/5 = 80 2) 중앙값(Median) 데이터를 크기 순서로 정렬했..
2025.01.06 21:00
인공지능
-
분류 - 서포트 벡터 머신(SVM)
서포트 벡터 머신(SVM)이란? 서포트 벡터 머신(Support Vector Machine, SVM)은 지도 학습(Supervised Learning) 알고리즘 중 하나로, 주로 분류(Classification) 문제를 해결하는 데 사용됨. 데이터를 학습하여 가장 최적의 결정 경계(Decision Boundary) 를 찾고, 이를 기반으로 새로운 데이터가 어느 범주에 속하는지 예측하는 방식1. SVM의 핵심 개념SVM이 데이터를 분류하는 과정에서 가장 중요한 개념은 초평면(Hyperplane) 과 서포트 벡터(Support Vector) 초평면(Hyperplane)데이터를 두 개의 클래스로 나누는 결정 경계2차원 공간에서는 선(line), 3차원에서는 평면(plane), 그리고 고차원에서는 초평면(hyp..
2025.02.20 21:00 -
분류 - K-최근접 이웃(K-Nearest Neighbors)
K-최근접 이웃(K-Nearest Neighbors, KNN)새로운 데이터가 들어왔을 때, 기존 데이터 중 가장 가까운 K개의 이웃(데이터 포인트)을 참고하여 이 데이터를 분류하거나 값을 예측하는 알고리즘 (가까운 기준은 거리(distance)를 기준으로 함) K-최근접 이웃 주요 특징지도 학습(Supervised Learning): KNN은 입력 데이터(특징)와 정답(레이블)을 기반으로 학습거리 기반 알고리즘: 데이터 간의 유사성을 거리로 계산하여 가까운 데이터와 유사하다고 판단비모수적 알고리즘(Non-parametric): KNN은 특정한 데이터 분포 가정 없이 작동 K-최근접 이웃 작동 원리 1) 거리 계산 : 새로운 데이터와 기존 데이터 간의 거리를 계산함일반적으로 사용하는 거리 계산 방법은 유클..
2024.12.18 21:00 -
분류 - 의사결정나무(Decision Tree)
의사결정 나무(Decision Tree)데이터를 트리 형태로 분류하거나 예측하는 데 사용하는 지도 학습(Supervised Learning) 알고리즘.나무 모양처럼 분기(branch)가 갈라지며 각 분기점에서 질문을 던지고, 그 질문에 따라 데이터를 분류하거나 예측하는 방식으로 동작함 의사결정 나무 특징구조가 직관적: 트리 구조를 통해 사람이 쉽게 이해할 수 있음다양한 데이터 처리 가능: 연속형 및 범주형 데이터를 모두 처리할 수 있음해석 용이성: 결과를 시각적으로 표현하여 의사결정을 설명하기 쉬움재귀적 분할: 데이터를 반복적으로 분할하여 트리 구조를 완성. 의사결정나무의 구조1) 루트 노드 (Root Node)의사결정나무의 시작점으로, 데이터를 처음 분류하기 위한 기준이 설정됨ex) "온도가 30도 이..
2024.12.16 21:00 -
분류 - 로지스틱 회귀(Logistic Regression)
로지스틱 회귀(Logistic Regression) 분류 문제(Classification Problem)를 해결하기 위해 자주 사용되는 알고리즘입니다. 이름에 "회귀"라는 단어가 포함되어 있지만, 실제로는 분류(Classification) 작업을 수행함 1. 로지스틱 회귀란? 로지스틱 회귀는 특정 데이터가 둘 중 하나의 카테고리or 다수의 카테고리에 속할 확률을 예측하는 알고리즘.하나의 카테고리 (ex. "스팸 메일" vs "정상 메일") 다수의 카테고리 (ex. "고양이", "개", "새") 선형 회귀(Linear Regression)와 로지스틱 함수(Logistic Function, 시그모이드 함수)를 결합하여 결과값을 0과 1 사이의 확률로 변환 시그모이드 함수는 결과값을 S자 형태의 곡선으로 ..
2024.11.28 21:00 -
분류(Classification)
분류(Classification) 데이터를 미리 정의된 카테고리(클래스) 중 하나로 분류하는 작업분류 문제의 유형1. 이진 분류(Binary Classification) 두 개의 클래스(예: 참/거짓)로 나누는 문제2. 다중 클래스 분류(Multi-class Classification)세 개 이상의 클래스로 나누는 문제 (ex.손으로 쓴 0~9 사이의 숫자 분류)3. 다중 레이블 분류(Multi-label Classification)한 데이터가 여러 클래스에 속할 수 있는 문제 (ex. 사진에서 여러 개의 사물을 인식, 커피와 강아지가 있는 사진) 주요 분류 알고리즘1. 로지스틱 회귀(Logistic Regression) 선형 모델을 기반으로 하며, 결과를 확률로 변환하여 이진 또는 다중 클래스 분류에 ..
2024.11.26 21:02