질적 데이터의 요약
- 막대그래프
양적 데이터의 요약
- 히스토그램
- 점도표
- 평균, 분산, 표준편차
- 상자그림
- 중앙값, 사분위수 범위
01. 상자그림, 중앙값, 사분위수 범위
평균의 특징
1. 데이터의 분포가 좌우 대칭인 경우 평균은 분포의 가운데에 위치한다
2. 데이터 중 하나라도 한쪽으로 치우지면 평균은 특이점 쪽으로 움직이게 된다
중앙값
데이터를 크기 순서대로 늘어놓았을 때 정확히 중앙에 위치하는 값
특이점의 영향을 거의 받지 않는다
분포가 한쪽으로 쏠려 있거나, 특이점이 존재하는 데이터를 요양할때 주로 사용된다.
사분위수
크기 순서대로 늘어놓은 데이터를 4등분한 값
1사분위 : 전체 데이터 중 값이 낮은 1/4과 나머지
2사분위 : 전체 데이터 중 값이 낮은 2/4과 나머지
3사분위 : 전체 데이터 중 값이 낮은 3/4과 나머지
4사분위 : 3사분위 - 1사분위
백분위수
p백분위수 - 전체 데이터의 p%가 이 값보다 작거나 같은 값
1사분위 - 25백분위수
2사분위 - 중앙값
3사분위 - 75백분위수
범위
관찰값의 최대값 - 최소값
데이터의 산포를 설명하는 가장 간단한 통계량
특이점의 영향을 심하게 받는다
다섯 수치요약과 상자그림
다섯 수치요약 five-number summary
최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값
데이터의 중심위치와 퍼진 정도를 모두 파악할 수 있다
상자 boxplot
다섯 수치요약을 나타낸 그래프
02. 분포와 요약통계량
데이터의 중심위치
평균 - 분포의 무게중심
- 대칭적인 분포일 때 데이터를 잘 대표한다
- 분포가 기울어져 있거나 특이점이 있는 경우 데이터를 대표하지 못한다
중앙값 - 데이터를 크기 순으로 정렬했을 때 가장 가운데에 위치하는 값
- 분포가 기울어져 있거나 특이점이 있는 경우 쓰인다.
최빈값 - 빈도가 가장 높은 관찰값
좌우 대칭인 종모양 분포 - 평균 / 중앙값 / 최빈값 비슷
기울어진 분포 - 평균이 긴 꼬리 쪽에 더 가깝게
쌍봉우리형 분포 - 2개의 최빈값
데이터의 산포
분산 - 편차의 제곱의 평균
표준편차 - 분산의 제곱근
범위 - 최댓값 - 최솟값
사분위수 범위 - 3사분위수 > 1사분위수
이 값들이 클수록 데이터의 분포가 많이 퍼진 것
분산, 표준편차, 범위는 특이점의 영향을 받는다
분산과 분포 형태
평균이 같고 분산이 다른 두 분
'통계&데이터사이언스 > 통계학개론' 카테고리의 다른 글
확률분포와 표본분포 2 (0) | 2024.05.04 |
---|---|
확률 및 확률분포함수 2 (0) | 2024.05.04 |
확률 및 확률분포함수 1 (1) | 2024.05.04 |
데이터 요약 1 (0) | 2024.05.04 |
데이터와 통계학 (1) | 2024.04.26 |