통계&데이터사이언스/데이터정보처리입문

통계정보의검색 및 활용 (2)

데이터 시오 2024. 4. 26. 11:42
728x90
반응형

1. 연속형 자료의 정리

2. 연속형 자료의 그래프

3. 웹 데이터 분석 


1. 연속형 자료의 정리

중심측도 : 평균

중심위치의 측도 - 평균, 중앙값, 최빈값 등이 있다. 

이 중 가장 많이 사용되는 것이 평균(mean)

 

평균 : 관측한 자료의 값들은 X1, X2, ... Xn 이라 할 때, 정의

표본평균 

평균은 어느 한 자료값이 다른 값들보다 아주 크거나 작은 특이값의 영향을 많이 받는다. 

 

중심측도 : 절사평균

절사평균

중심측도 : 최빈값

최빈값은 자료 중 가장 빈도가 많은 값이다. 

최빈값은 이산형 자료일 경우 도수분포표만 살펴보면 쉽게 구할 수 있다. 

연속형 자료일 경우 자료를 몇개의 계급구간으로 나누어 가장 도수가 높은 계급의 중간값을 최빈값으로 정하기도 한다. 

 

산포도 측도 

자료가 흩어진 정도를 수치로 나타낸 것을 산포도의 측도라고 한다. 

대표적인 산포도의 측도는 분산 & 표준편차

산포도 측도 :  분산 & 표준편차

분산은 각 자료값과 평균과의 거리를 제곱하여 합을 구한 후 이를 자료의 수로 나눈 측도다. 

자료가 평균에서 많이 흩어져 있으면 분산이 커진다. 

자료가 평균 주위에 몰려 있으면 분산이 작게 된다. 

표준편차는 분산의 제곱근이다. 

 

산포도 측도 : 변동계수, 범위

변동계수는 자료의 개수 & 측정단위가 다근 두 갱 이상의 자료에 대한 표준편차를 비교하는 것은 의미 없다

이러한 경우, 사용하는 측도가 표준편차를 평균으로 나눈 표준화 된 표준편차인 변동계수를 사용한다. 

변동계수 = 변이계수 

 

범위는 최대값 - 최소값

 

산포도 측도 : 사분위수범위 

p % 백분위수(percentile) - 자료를 작은 것 ~ 큰 것까지 순서대로 늘어놓았을 때 p%번째 자료

백분위수 중 25% 백분위를 제1사분위 

백분위수 중 50% 백분위를 제2사분위 

백분위수 중 75% 백분위를 제3사분위 

사분위수 범위는 IQR = Q3 - Q1

 

728x90