반응형
이상치가 뭐야?
이상치(Outlier)는 다른 값들에서 아주 멀리 떨어져 있는 값을 말합니다. 예를 들어서 반 평균이 50점인데 한 학생의 점수는 100점인 경우 이 학생의 점수는 이상치가 될 수 있습니다.
이상치는 평균이나 표준편차 처럼 대상의 일반적인 상태를 파악하는데 쓰이는 수치들에 큰 영향을 줍니다. 예를 들어서 위 반에서 3명이 있었는데 저 학생이 100점이고 나머지 두 명이 25점이었다면 이 반 아이들의 수준은 그래도 절반 정도는 알고 있다는 잘못된 추측을 할 수 있게 합니다.
평균이나 표준편차 같은 수치에 비해서 5가지 요약 수치(최솟값, 최댓값, 1분위수, 3 분위수)의 경우 영향을 덜 받기 때문에 이상치가 있는 경우는 5가지 요약 수치를 활용하는 것이 유리합니다.
추천 링크
이상치를 발견하는 방법은?
이상치를 발견하는 가장 쉬운 방법은 데이터를 그림으로 표현해보는 것입니다. 각 데이터의 좌표를 점으로 표시하거나 상자그림을 그리거나 히스토그램을 그려보는 것으로 멀리 떨어진 수상한 데이터가 있는지 살펴봅니다.
이상치를 발견했을 때 일반적인 대응 방법은?
- 요약 내용에 이상치가 존재한다는 것과 이상치가 미치고 있는 영향을 언급합니다.
- 만약 오타 등의 문제라면 제거하거나 수정합니다.
- 이상치가 생긴 이유를 이해하고 우리가 답을 구하려는 질문에 미치는 영향을 확인합니다.
- 평균이나 표준편차 같은 수치보다는 비교적 이상치에 영향을 덜 받는 5가지 수치 요약을 활용해서 요약서/보고서를 작성합니다.
- 요약/보고서를 주의해서 작성하고 올바른 질문을 고민합니다.
반응형