01. 변수
변수
변수 - 각 단위에 대해 관측되는 특성
데이터 - 하나 이상의 변수에 대한 관찰값의 모음
변수의 종류
질적변수 - 유한개의 범주 중 하나의 값을 취하는 변수
양적변수 - 양적인 수치로 측정되는 변수
질적변수의 종류
- 명목형 변수
범주들에 의미 있는 순서를 정할 수 없는 질적 변수 - 순서형 변수
범주 간의 의미 있는 순서를 정할 수 있는 질적 변수
양적변수의 종류
- 연속형 변수
어떤 실수 구간 안의 모든 값을 가질 수 있는 변수 - 이산형 변수
취할 수 있는 값을 셀 수 있는 양적 변수
변수의 분포
변수의 데이터에는 변동(Variability) 있다
변수의 분포 : 변수가 취할 수 있는 모든 값에 대해서 각 값이 발생하는 빈도를 나열한다.
도수분포표 : 데이터에서 각 값의 출현빈도나 비슷한 값끼리 묶은 구간별로 관측된 데이터의 개수를 정리한 표
02. 질적데이터의 요약
막대그래프
각 범주에 속한 관찰값의 개수 / 비율을 막대의 길이로 나타낸 그래프
원그래프
각 범주에 속한 관찰값의 비율이 원의 면적으로 표현한 그래프
03. 양적데이터의 요약 - 히스토그램
양적데이터의 요약
- 히스토그램, 점도표, 상자그림
- 평균, 표준편차, 분산
- 중앙값, 사분위수 범위
히스토그램
- 도수분포표를 그래프로 나타낸 것
- 계급을 수평축으로 나타낸다
- 각 계급의 도수에 비례하는 넓이의 직사각형
히스토그램을 이용하면 특이점을 쉽게 찾을 수 있다
히스토그램을 이용하면 전체적인 분포를 파악할 수 있다
특이점(outlier) - 대부분의 데이터로부터 멀리 떨어져 있는 관찰값
주의점 - 같은 데이터라도 계급의 폭에 따라 분포의 특성이 달라보일 수 있다
분포유형
종 모양 분포bell-shaped distribution
- 좌우 대칭이고 데이터가 가운데에 모여있다
쌍봉우리형 분포 bimodal distribution
- 2개의 봉우리 주변으로 데이터가 모여있는 분포
치우친 분포 skewed distribution
- 왼쪽으로 치우친 분포 - 오른쪽 꼬리가 더 길다
- 오른쪽으로 치우친 분포 - 왼쪽 꼬리가 더 길다
균등분포 uniform
- 어떤 범위 내의 값이 고르게 나타나는 분포
04. 양적 데이터의 요약 - 점도표, 평균, 분산
점도표
수평선 위에 데이터의 값에 해당하는 위치에 점을 찍는 그래프
데이터가 작을때 유용합니다
관찰값의 개수가 20개에서 30개를 넘어가면 복잡해진다
최빈값 mode
관찰값 중에서 발생빈도가 가장 높은 값이다
여러 개일 수도 있다.
하나도 없을 수도 있다
평균
양적 변수의 분포의 균형을 이루는 무게중심의 위치에 해당하는 값
어떤 변수의 관찰값의 총합ㅇ을 관찰값의 개수로 나눈 값
표본 크기가 n인 표본 데이터의 관찰값을 x1, x2, ... xn이라 할 때
평균의 특징
표본데이터가 기울어진 분포를 가졌거나 특이점이 있는 경우, 평균이 데이터 전체를 잘 대표하지 못한다
특이점의 영향을 크게 받는다
데이터의 분포가 좌우 대칭일 때, 평균은 분포의 가운데 위치
데이터 중 하나라도 한쪽으로 치우치면 평균은 특이점 쪽으로 움직이게 된다
분산과 표본편차
편차 : 관찰값 - 평균
분산variance : 편차의 제곱의 평균
표준편차 standard deviation 분산의 제곱근
분산, 표준편차가 크면 데이터가 평균을 중심으로 광범위하게 분포되어 있다
분산, 표준편차가 작으면 데이터가 평균을 중심으로 조밀하게 모여 있다
분산, 표준편차는 특이점의 영향을 많이 받는다
분산의 단위 = 데이터 측정단위의 제곱
표준편차의 단위 = 데이터 측정단위
변이계수 - 표준편차를 평균으로 나눈 값
'통계&데이터사이언스 > 통계학개론' 카테고리의 다른 글
확률분포와 표본분포 2 (0) | 2024.05.04 |
---|---|
확률 및 확률분포함수 2 (0) | 2024.05.04 |
확률 및 확률분포함수 1 (1) | 2024.05.04 |
데이터 요약 2 (0) | 2024.05.04 |
데이터와 통계학 (1) | 2024.04.26 |