반응형

이상치가 뭐야? 

이상치(Outlier)는 다른 값들에서 아주 멀리 떨어져 있는 값을 말합니다. 예를 들어서 반 평균이 50점인데 한 학생의 점수는 100점인 경우 이 학생의 점수는 이상치가 될 수 있습니다. 

 

이상치는 평균이나 표준편차 처럼 대상의 일반적인 상태를 파악하는데 쓰이는 수치들에 큰 영향을 줍니다. 예를 들어서 위 반에서 3명이 있었는데 저 학생이 100점이고 나머지 두 명이 25점이었다면 이 반 아이들의 수준은 그래도 절반 정도는 알고 있다는 잘못된 추측을 할 수 있게 합니다. 

 

평균이나 표준편차 같은 수치에 비해서 5가지 요약 수치(최솟값, 최댓값, 1분위수, 3 분위수)의 경우 영향을 덜 받기 때문에 이상치가 있는 경우는 5가지 요약 수치를 활용하는 것이 유리합니다. 

 

추천 링크

5가지 수치 요약(5 number summary) | 5수요약

 

이상치를 발견하는 방법은? 

이상치를 발견하는 가장 쉬운 방법은 데이터를 그림으로 표현해보는 것입니다. 각 데이터의 좌표를 점으로 표시하거나 상자그림을 그리거나 히스토그램을 그려보는 것으로 멀리 떨어진 수상한 데이터가 있는지 살펴봅니다. 

 

 

이상치-상자그림-예제
상자그림

 

이상치를 발견했을 때 일반적인 대응 방법은?

 

  • 요약 내용에 이상치가 존재한다는 것과 이상치가 미치고 있는 영향을 언급합니다.
  • 만약 오타 등의 문제라면 제거하거나 수정합니다. 
  • 이상치가 생긴 이유를 이해하고 우리가 답을 구하려는 질문에 미치는 영향을 확인합니다. 
  • 평균이나 표준편차 같은 수치보다는 비교적 이상치에 영향을 덜 받는 5가지 수치 요약을 활용해서 요약서/보고서를 작성합니다. 
  • 요약/보고서를 주의해서 작성하고 올바른 질문을 고민합니다. 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기