본문 바로가기
통계&데이터사이언스/통계학개론

데이터 요약 2

by 데이터 시오 2024. 5. 4.
728x90
반응형

질적 데이터의 요약 

 - 막대그래프 

 

양적 데이터의 요약 

 - 히스토그램

 - 점도표

 - 평균, 분산, 표준편차

 - 상자그림

 - 중앙값, 사분위수 범위

 


01. 상자그림, 중앙값, 사분위수 범위

평균의 특징 

1. 데이터의 분포가 좌우 대칭인 경우 평균은 분포의 가운데에 위치한다

2. 데이터 중 하나라도 한쪽으로 치우지면 평균은 특이점 쪽으로 움직이게 된다

 

중앙값 

데이터를 크기 순서대로 늘어놓았을 때 정확히 중앙에 위치하는 값

특이점의 영향을 거의 받지 않는다

분포가 한쪽으로 쏠려 있거나, 특이점이 존재하는 데이터를 요양할때 주로 사용된다. 

 

사분위수 

크기 순서대로 늘어놓은 데이터를 4등분한 값

1사분위 : 전체 데이터 중 값이 낮은 1/4과 나머지 

2사분위 : 전체 데이터 중 값이 낮은 2/4과 나머지 

3사분위 : 전체 데이터 중 값이 낮은 3/4과 나머지 

4사분위 : 3사분위 - 1사분위

 

백분위수

p백분위수 - 전체 데이터의 p%가 이 값보다 작거나 같은 값

1사분위 - 25백분위수

2사분위 - 중앙값

3사분위 - 75백분위수 

 

범위

관찰값의 최대값 - 최소값

데이터의 산포를 설명하는 가장 간단한 통계량 

특이점의 영향을 심하게 받는다

 

다섯 수치요약과 상자그림

다섯 수치요약 five-number summary 

최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값

데이터의 중심위치와 퍼진 정도를 모두 파악할 수 있다

 

상자 boxplot

다섯 수치요약을 나타낸 그래프


02. 분포와 요약통계량

데이터의 중심위치

평균 - 분포의 무게중심 

  • 대칭적인 분포일 때 데이터를 잘 대표한다
  • 분포가 기울어져 있거나 특이점이 있는 경우 데이터를 대표하지 못한다 

중앙값 - 데이터를 크기 순으로 정렬했을 때 가장 가운데에 위치하는 값

  • 분포가 기울어져 있거나 특이점이 있는 경우 쓰인다.

최빈값 - 빈도가 가장 높은 관찰값

 

좌우 대칭인 종모양 분포 - 평균 / 중앙값 / 최빈값 비슷

기울어진 분포 - 평균이 긴 꼬리 쪽에 더 가깝게 

쌍봉우리형 분포 - 2개의 최빈값

 

데이터의 산포

분산 - 편차의 제곱의 평균

표준편차 - 분산의 제곱근

범위 - 최댓값 - 최솟값 

사분위수 범위 - 3사분위수 > 1사분위수 

 

이 값들이 클수록 데이터의 분포가 많이 퍼진 것

분산, 표준편차, 범위는 특이점의 영향을 받는다

 

분산과 분포 형태

평균이 같고 분산이 다른 두 분

 

 

 

 

 

 

 

728x90

'통계&데이터사이언스 > 통계학개론' 카테고리의 다른 글

확률분포와 표본분포 2  (0) 2024.05.04
확률 및 확률분포함수 2  (0) 2024.05.04
확률 및 확률분포함수 1  (1) 2024.05.04
데이터 요약 1  (0) 2024.05.04
데이터와 통계학  (1) 2024.04.26