통계정보의검색 및 활용 (2)
1. 연속형 자료의 정리
2. 연속형 자료의 그래프
3. 웹 데이터 분석
1. 연속형 자료의 정리
중심측도 : 평균
중심위치의 측도 - 평균, 중앙값, 최빈값 등이 있다.
이 중 가장 많이 사용되는 것이 평균(mean)
평균 : 관측한 자료의 값들은 X1, X2, ... Xn 이라 할 때, 정의
표본평균
평균은 어느 한 자료값이 다른 값들보다 아주 크거나 작은 특이값의 영향을 많이 받는다.
중심측도 : 절사평균
절사평균
중심측도 : 최빈값
최빈값은 자료 중 가장 빈도가 많은 값이다.
최빈값은 이산형 자료일 경우 도수분포표만 살펴보면 쉽게 구할 수 있다.
연속형 자료일 경우 자료를 몇개의 계급구간으로 나누어 가장 도수가 높은 계급의 중간값을 최빈값으로 정하기도 한다.
산포도 측도
자료가 흩어진 정도를 수치로 나타낸 것을 산포도의 측도라고 한다.
대표적인 산포도의 측도는 분산 & 표준편차
산포도 측도 : 분산 & 표준편차
분산은 각 자료값과 평균과의 거리를 제곱하여 합을 구한 후 이를 자료의 수로 나눈 측도다.
자료가 평균에서 많이 흩어져 있으면 분산이 커진다.
자료가 평균 주위에 몰려 있으면 분산이 작게 된다.
표준편차는 분산의 제곱근이다.
산포도 측도 : 변동계수, 범위
변동계수는 자료의 개수 & 측정단위가 다근 두 갱 이상의 자료에 대한 표준편차를 비교하는 것은 의미 없다
이러한 경우, 사용하는 측도가 표준편차를 평균으로 나눈 표준화 된 표준편차인 변동계수를 사용한다.
변동계수 = 변이계수
범위는 최대값 - 최소값
산포도 측도 : 사분위수범위
p % 백분위수(percentile) - 자료를 작은 것 ~ 큰 것까지 순서대로 늘어놓았을 때 p%번째 자료
백분위수 중 25% 백분위를 제1사분위
백분위수 중 50% 백분위를 제2사분위
백분위수 중 75% 백분위를 제3사분위
사분위수 범위는 IQR = Q3 - Q1