이상치
이상치데이터셋에서 범위를 크게 벗어난 값 분위수정렬된 데이터에서 25%, 50%, 75%, 100%에 해당하는 값 데이터[0, 10, 20, 30, 40]의 사분위수 1사분위수 (Q1): 데이터 25% 에 들어있는 값(10)2사분위수 (Q2): 데이터 50% 에 들어있는 값(20)3사분위수 (Q3): 데이터 75% 에 들어있는 값(30)4사분위수 (Q4): 데이터 100% 에 들어있는 값(40) IQR(Interquartile Range)데이터셋의 중간 범위(50%)를 나타낸다.수식 IQR=Q3−Q130-10=20 보통 IQR의 1.5배를 초과하는 값은 이상치로 판별함 import pandas as pddata = [0, 2, 4, 8, 10, 21]df = pd.DataFrame(data, column..
2024. 11. 27.
결측치
결측치데이터 수집 과정에서 값이 기록되지 않은 것 결측치 처리 방법1. 결측치가 있는 행이나 열을 삭제2. 결측치를 평균, 중앙값, 최빈값 등으로 다른 값으로 대체3. 결측치를 예측하기 위해 회귀 분석이나 머신러닝을 사용 결측치가 있는 데이터프레임import pandas as pdimport numpy as npdf = pd.DataFrame({'A': [1, 2, np.nan],'B': [6, np.nan, 10],'C': [np.nan, np.nan,10]})df 결측치 위치 확인pd.isna(df) 열별 결측치 개수 확인pd.isna(df).sum() A열 결측치 1개B열 결측치 1개C열 결측치 2개 결측치를 제거df.dropna() 결측치가 있는 '행'을 제거하여 위 데이터프레임의 경우 아무것도 ..
2024. 11. 26.