효율적이고 직관적인 데이터 처리를 위해 데이터를 특정 기준에 따라 그룹화하고 각 그룹에 대해 요약 통계를 계산하거나 변환하는 것이 그룹 연산
데이터를 특정 열 또는 열들의 값을 기준으로 그룹화한 후, 각 그룹별로 연산을 수행
import pandas as pd
# 샘플 데이터
data = {'지역': ['서울', '부산', '서울', '대구', '부산'],
'상품': ['A', 'B', 'A', 'A', 'B'],
'매출': [100, 200, 150, 300, 250]}
df = pd.DataFrame(data)
# 지역별 매출 합계 계산
grouped = df.groupby('지역')['매출'].sum()
print(grouped)
# 여러 연산 적용하기 (합계, 평균)
grouped = df.groupby('지역')['매출'].agg(['sum', 'mean'])
print(grouped)
# 지역과 상품을 기준으로 그룹화하여 매출 합계 계산
grouped = df.groupby(['지역', '상품'])['매출'].sum()
print(grouped)
# 매출 합계가 200 이상인 그룹만 필터링
filtered = df.groupby('지역').filter(lambda x: x['매출'].sum() > 200)
print(filtered)
Data Preprocessing - 데이터 형 변환 (2) | 2024.11.13 |
---|---|
Data Preprocessing - 이상치 탐지 (0) | 2024.11.11 |
Data Preprocessing - groupby (1) | 2024.09.26 |
Data Preprocessing - 데이터 프레임 통합 (1) | 2024.09.22 |
Data Preprocessing(데이터 전처리) (2) | 2024.09.18 |