반응형

기술 통계란?

 

기술 통계(Descriptive Statistics)는 우리가 모은 데이터를 분석하기 위해서 여러 방법으로 표현하는 것을 의미합니다.  

 

예를 들면 한 반의 성적의 평균을 구하거나 표준편차를 구해서 반 전체의 수준이나 성적이 분포하는 정도를 확인해 보는 것입니다. 

 

기술 통계와 관련이 있는 용어들에는 다음과 같은 것들이 있습니다. 

 

  • 중앙값(median) : 대상 집단을 오름차순으로 정렬했을 때 가운데에 해당하는 값
  • 최빈수(mode) : 대상 집단에서 가장 많이 나타나는 값
  • 사분위수(qurtile) : 데이터 표본을 4개의 동일한 부분으로 나눈 값입 
  • 이상치(outliers): 예상되는 기준을 초과하는 극적인 데이터

 

추천 링크

 

 

 

추리 통계란?

 

추리 통계(Inferentail Statistics)는 전혀 다른 종류의 통계입니다. 이름에서 예측할 수 있는 것처럼 우리가 실제로 가지고 있지 않은 데이터를 추론하기 위한 통계학입니다. 

 

조금 막연하니 예를 통해서 설명을 하는 것이 이해가 쉬울 것 같습니다. 

 

한국 고등학생이 약 10만 명만 있다고 가정해보겠습니다. 교육청에서 한국의 고등학생들이 스마트폰을 소유하고 있는 비율을 급하게 확인해야 할 일이 생겨서 각 학교에 공문을 보내서 참여를 부탁했지만 대부분의 학교가 방학이어서 실제로 회답을 받을 수 있었던 학생 수가 5000명 밖에 안 되었다고 해보겠습니다. 5000명 중에서 93%의 학생들이 스마트폰을 소유하고 있었습니다. 

 

교육청은 급한 상황이었기 때문에 이 5000명의 회답을 통해서 10만 명의 스마트폰 소유 비율을 추론해야 합니다.  이런 상황에서 사용할 수 있는 것이 추리 통계입니다. 

 

그럼 간단하게 추리 통계와 관련된 용어들을 정리해 볼까요? 

 

  • 모집단(Population) : 우리가 관심을 가지고 있는 그룹 전체를 의미합니다. 위 예에서 모집단은 10만 명의 학생들입니다. 
  • 샘플(Sample) : 모집단의 부분 집합입니다. 위 예에서는 회답을 받은 5000명의 학생이 여기에 해당합니다. 
  • 통계량(Statistic) : 샘플의 내용을 요약하는 수치입니다. 위의 예에서는 93%가 여기에 해당합니다. 
  • 파라미터(Parameter) : 모집단의 내용을 요약하는 수치입니다. 위의 예에서는 아직 우리가 구하지 못한 전체 학생의 스마트폰 소유 비율입니다. 

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기