목차
5가지 수치 요약(5수요약)이란?
(최솟값, 최댓값, 1분위수, 2분위수, 3분위수)
5가지 수치 요약은 어떻게 찾아?
5가지 수치요약과 같이 알아두면 좋은 개념들은?
(범위, 사분범위)
5가지 수치 요약(5수요약)이란?
5가지 수치 요약은 말 그대로 5개의 수치를 의미합니다. 이 수치는 우리가 데이터를 파악하는데 도움을 줄 수 있습니다. 주로 히스토그램 같은 그래프를 그릴 때 활용이 됩니다
수치 이름 | 내용 |
최소값(Minimum) | 데이터 셋에서 가장 작은 값을 의미한다 줄임 표현: min |
1사분위수(Q1) | 데이터를 오름차순으로 정렬하였을 때 하위 25% 지점의 값을 의미한다 다른 표현: 제1사분위수, Lower Quartile, 1st Quartile |
2사분위수(Q2) = 중앙값 | 데이터를 오름차순으로 정렬하였을 때 하위 50% 지점의 값을 의미한다. 다른 표현: 제2사분위수, 중앙값, 중위값, Midian, 2nd Quartile |
3사분위수(Q3) | 데이터를 오름차순으로 정렬하였을 때 하위 75% 지점의 값을 의미합니다. 다른 표현: 제 3 사분위수, Upper Quartile, 3rd Quartile |
최댓값(Maximum) | 데이터 셋에서 가장 큰 값을 의미합니다. 줄임 표현: max |
5가지 수치 요약을 실제로 찾아 보기
대상 데이터 셋(Data set)
1, 4, 5, 7, 13, 1, 2, 3, 7, 10 |
①데이터셋 오름차순으로 정렬하기
위선 위의 데이터셋을 아래처럼 오름차순으로 정렬을 합니다.
1, 4, 5, 7, 13, 1, 2, 3, 7, 10
⇩
오름차순으로 정렬하기
⇩
1, 1, 2, 3, 4, 5, 7, 7, 10, 13
②최솟값과 최댓값을 찾는다.
1, 1, 2, 3, 4, 5, 7, 7, 10, 13
정렬한 데이터셋에서 가장 큰 값과 가장 작은 값을 찾습니다.
최솟값(Minimum) : 1
최댓값(Maximum) : 13
③2사분위수(중앙값)을 찾는다
1, 1, 2, 3, 4, 5, 7, 7, 10, 13
이 데이터셋에 포함된 값의 개수는 총 10개입니다. 짝수이기 때문에 한 가운데 있는 값이 2개 입니다. 이 경우는 두 값을 더하고 2로 나누어준 값이 2사분위수(중앙값)가 됩니다.
2사분위수 = (4 + 5) ÷ 2 = 4.5
※홀수인 경우에는 가운데 위치한 값이 2사분위수가 됩니다.
1, 1, 2, 3, 4
④1사분위수와 3사분위수를 찾는다
이 데이터셋은 10개의 값을 가지고 있기 때문에 2사분면을 기준으로 5개씩 나누어 집니다. 이런 식으로 나누어진 값에서 한 가운데 있는 값을 찾으면 1사분위수와 3사분위수의 값이 됩니다.
4.5
1, 1, 2, 3, 4 | 5, 7, 7, 10, 13
1사분위수: 2
3사분위수: 7
※홀수인 경우에는 가운데 위치한 값이 2사분위수가 됩니다.
1, 1, 2, 3, 4
1사분위수 = (1 + 1) ÷ 2 = 1
3사분위수 = (3 + 4) ÷ 2 = 3.5
5가지 수치요약과 같이 알아두면 좋은 개념들은?
5가지 수치 요약과 같이 알아두면 좋은 개념들도 있습니다.
범위(Range)
범위는 최댓값과 최소값의 차이로 구할 수 있습니다. 범위를 통해서 해당 데이터셋의 값이 어느정도의 폭을 가지고 있는 확인할 수 있습니다.
예)
최댓값 12
최소값 3
범위 = 12 - 3 = 9
사분범위(interquartile range)
사분 범위는 3사분면과 1사분면의 차이로 구할 수 있습니다. 사분범위의 장점은 너무 극단적인 값들에 영향을 덜 받아서 비교적 안정적인 분석을 가능하게 해준다는 점입니다.
예)
4.5
1, 1, 2, 3, 4 | 5, 7, 7, 10, 13
1사분위수: 2
3사분위수: 7
사분범위 = 7 - 2 = 5
같이 보면 좋은 글
평균의 함정이란? | 피하는 방법 (평균값, 중앙값, 최빈값)
데이터 타입(Data type) | 데이터 분석(Data analysis) | 데이터 유형