IQC : Inter Quartile range, 사분범위
전체 데이터들을 오름차순으로 정렬하고, 정확히 4등분(25%, 50%, 75%, 100%)으로 나눔.
여기서 75% 지점의 값과 25% 지점의 값의 차이를 IQR이라고 함.
전체 데이터의 50% 데이터가 몰려있는 구간
첨부예제에서는
25% 의 값 3.5, 75%의 값 8.5가 확인되며, 즉 IQR 은 8.5 - 3.5 = 5이다.
df_test_iqr = pd.read_excel('test_iqr.xlsx')
df_test_iqr.describe()
추가 :
일반적으로 이상치(outlier)는 IQR의 1.5배를 넘어서는 값을 이상치로 간주/처리한다
즉 여기에서는 1.5 x iqr = 7.5가 기준이 된다.
즉 75% 값 8.5보다 7.5가 큰 14 초과인 경우와
25%값 3.5보다 7.5가 작은 -4보다 미만인 경우를 이상치로 처리한다.
boxplot()으로 확인이 가능하다.
sns.boxplot(df_test_iqr)
sns.boxplot(df_test_iqr, x='A')
test_iqr.xlsx
0.01MB
'파이썬' 카테고리의 다른 글
quantile() 함수 (0) | 2023.03.24 |
---|---|
특정조건의 값을 바꾸는 방법 (0) | 2023.03.24 |
조건부 loc 함수 (0) | 2023.03.24 |
seaborn boxplot (0) | 2023.03.24 |
os.getcwd(), os.listdir() (0) | 2023.02.25 |
댓글