데이터를 분석할 때는 데이터 타입(데이터 유형)에 따라서 분석에 적용해야 하는 방법이 달라질 수 있습니다. 데이터 타입(데이터 유형)에 따라서 다른 처리를 하지 않으면 잘못된 분석 결과를 도출할 수 있기 때문에 데이터 타입을 잘 구분하는 것이 중요합니다.
목차
수치형 데이터 vs 범주형 데이터
연속형 데이터 vs 이산형(불연속형) 데이터
순서형 데이터 vs 명목형 데이터
데이터 타입 분류 정리
수치형 데이터 vs 범주형 데이터
데이터는 크게 수치형 데이터(정량적 데이터, Quantitative Data)와 범주형 데이터(Categorical Data)로 분류할 수 있습니다.
수치형 데이터는 수치를 값으로 가집니다. 따라서 수학적인 활용이 가능합니다. 범주형 데이터는 어떤 대상의 그룹을 나눌 때 사용합니다.
수치형 데이터의 예로는 나이(Age)나 책 페이지 수 등을 들 수 있습니다. 범주 데이터의 예로는 고양이의 품종이나 교과목 성적(A+, A, A-, B+, B, B-...)을 들 수 있습니다.
수치형 데이터 (정량적 데이터, Quantitative Data) |
범주형 데이터 (Categorical Data) |
수치를 값으로 가진다. 수학적 활용이 가능하다. |
어떤 대상의 그룹을 나눌 때 사용한다. |
예: 나이 고양이 품종 연수입 키 집에서 직장까지의 거리 온도 평균 속도 |
예: 교과목 성적(A+, A, A-, B+, B, B-...) 성별 우편 번호 영화 별점 평가 |
연속형 데이터 vs 이산형(불연속형) 데이터
수치형 데이터는 연속형 데이터(Continuous data)와 이산형 데이터(불연속형, Discrete data)로 나눌 수 있습니다.
연속형 데이터의 특징은 더 작은 단위로 쪼개질 수 있다는 점입니다. 예를 들어서 사람의 나이는 연 단위로 측정할 수 있습니다. 하지만 아직 어린 아이의 나이는 개월 단위로 쪼개기도 합니다. 여기서 더해서 마음만 먹으면 일 단위, 시간 단위, 초 단위로 쪼갤 수도 있습니다. 물론 필요에 따라서 더 작은 단위로 쪼개는 것도 가능합니다.
이산형 데이터는 수를 세는 것만 가능하다는 것이 특징입니다. 예를 들어서 오늘 인사한 사람의 수 같은 경우는 오직 세는 것만 가능하고 더 이상 쪼갤 수 없습니다.
연속형 데이터 (Continuous data) |
이산형 데이터 (불연속형, Discrete data) |
더 작은 단위로 쪼갤 수 있다. | 수를 세는 것만 가능하고 더 쪼갤 수 없다 |
예: 1년 강수량 집에서 직장까지의 거리 1km를 뛰는데 걸리는 시간 하루에 소비한 물의 양 체중 |
예: 오늘 마주친 개의 수 한 주에 본 영화의 수 책의 페이지 수 한 가족 당 핸드폰 보유 수 출산 횟수 |
순서형 데이터 vs 명목형 데이터
범주형 데이터는 순서형 데이터(Ordinal data)와 명목형 데이터(Nominal data)로 분류할 수 있습니다.
순서형 데이터는 순서 관계를 가지는 데이터입니다. 예를 들면 영화 별점 평가(1~5)나 대학교 과목 성적(A+, A, A-, B+, B....)을 들 수 있습니다.
명목형 데이터는 범주를 분류하지만 범주 사이에 순서가 존재하지 않습니다. 개의 품종을 예로 들 수 있는데 푸들과 불독 사이에는 아무런 순서도 없다는 것을 알 수 있습니다.
순서형 데이터 (Ordinal data) |
명목형 데이터 (Nominal data) |
순서 관계가 있는 범주형 데이터 | 순서 관계가 없는 범주형 데이터 |
예: 영화 별점 평가 대학교 과목 성적 |
예: 개의 품종 성별 혈액형 |
데이터 타입 분류 정리
수치형 데이터 (정량적 데이터, Quantitative Data) |
범주형 데이터 (Categorical Data) |
||
연속형 데이터 (Continuous data) |
이산형 데이터 (불연속형, Discrete data) |
순서형 데이터 (Ordinal data) |
명목형 데이터 (Nominal data) |
예: 키 체중 1년 강수량 |
예: 출산 횟수 책의 페이지 수 상영 중인 영화 수 |
예: 설문조사 평가 대학교 과목 평가 |
예: 혈액형 성별 |
같이 읽으면 좋은 글