본문 바로가기
통계&데이터사이언스/통계학개론

데이터와 통계학

by 데이터 시오 2024. 4. 26.
728x90
반응형

통계학이란

어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집한다. 

전통적인 데이터 수집방법에는 관찰, 설문조사, 실험

 

통계학은 불확실한 현상을 이해하기 위해 데이터를 수집하고

데이터 패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다. 

 

통계학의 역할에는

1. 데이터의 수집

2. 데이터의 요약

3. 추론

 

데이터의 수집

   - 알고 싶은 현상을 왜곡되지 않게 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용한다. 

데이터의 요약

  - 데이터가 가진 특징과 패턴을 정확하고 표과적으로 드러내기 위한 통계적 방법을 사용한다 (기술통계)

추론

  - 데이터를 이용하여 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화 (추측통계 = 추론통계)

 

데이터의 기본요소 

   단위 : 관측되는 개별 대상

   변수 : 각 단위에 대해 관측되는 특성

   관찰값 : 각 단위로부터 관측한 특성의 값

데이터는 하나 이상의 변수에 대한 관찰값의 모음이다. 

 


통계학의 주요 개념

모집단과 표본

1. 모집단(population) : 관심 대상이 되는 모든 개체의 모임

2. 표본(sample) : 모집단을 알기 위해 실제로 관특한 모집단의 일부

3. 모수(parameter) : 모집단의 특성을 나타내는 대표값

4. 통계량(statistic) : 표본의 특성을 나타내는 대표값

 

모집단과 모수

대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다

모집단의 종류

  유한모집단 - 개체 수가 유한개

  무한모집단 - 개체 수가 무한개 

 

모수 

 값이 고정되어 있음

 대부분의 경우 값 알 수 없음

 

표본과 통계량 

모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요하다

단순랜덤표집 sample random sampling 

유한모집단에서 n 개의 개체로 이루어진 가능한 모든 부분집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법

 

통계량 

  모수를 추정하기 위해 표본에서 얻은 값

  표본을 새로 뽑으면 통계량의 값이 달라진다. 


R & Rstudio 설치

 >>> 대학교 다니면서 이미 설치되어 있음


R의 데이터 형태와 연산

객체의 형성과 저장 

객체이름 <-- 저장하고 싶은 값

a <- 1

b <- 1

c <- a+b

c

 

벡터(vector)

벡터 : 어떤 요소(값)들이 일렬로 늘어선 것

벡터를 만드는 방법

c() 함수 안에 벡터의 각 요소를 쉼표로 구분하여 넣는다

seq() 등의 함수를 이용한다

height <- c(165, 151, 162, 160, 151, 152, 159, 163, 143, 161)
d<-1:3
e<-seq(1, 9, 2)
f<-rep(10, 5)
g<-c(d, f)
h<-c(4:1, seq(0, 9, 3))

 

벡터의 연산

벡터들 간 사칙연산 가능하다

  벡터의 길이가 같은 경우 - 각 벡터에서 같은 위치에 있는 숫자끼리 연산

  벡터의 길이가 다른 경우 - 길이가 짧은 벡터의 각 요소를 앞에서부터 재활용하면서 연산

데이터형

숫자형 - 사칙연산 가능

범주형 - factor() / as.factor() 이용하여 생성

문자형 - as.character() 이용하여 생성

논리형 - TRUE 또는 FALSE 값을 가진다.

i<-1:4
j<-as.factor(1:4)
i+1
j+1
## Warning in Ops.factor(j, 1): '+' not meaningful for factors
k<-as.character(1:4)
l<-c("K", "N", "O", "U")
m<-i>2

 

행렬 Matrix

벡터가 여러개인 모임

행렬의 요소들은 데이터형이 모두 같아야 한다

cbind(), rbind(), matrix() 함수를 이용해 생성

n<-rep(10, 5)
o<-1:5
p<-cbind(n, o)
q<-rbind(n, o)
r<-matrix(1:4, 2, 2)
s<-matrix(c(1, 4, 2, 7), 2, 2)
r+s
r %*% s
solve(s)
s[1,2]
s[1,]

 

데이터 프레임 data frame 

행렬과 비슷

데이터형이 다른 벡터들도 하나의 데이터 프레임에 저장 가능하다

data.frame() 함수 이용해 생성

name<-c("Kim", "Lee", "Park", "Choi")
age<-c(20, 32, 17, 51)
sex<-as.factor(c("Male", "Female", "Female", "Female"))
dat<-data.frame(name, age, sex)
dat$age
dat$name
dat$sex

 

통계학이란 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터
패턴을 요약, 분석하여 불확실한 현상에 대한 결론을 찾는 학문이다.

 

통계학의 역할에는 데이터의 수집, 데이터의 요약, 추론이 있다.

데이터는 하나 이상의 변수에 대한 관찰값의 모음이다. 데이터에서 관측되는 개별 대상을 단위라 하고, 각 단위에 대해 관측되는 특성은 변수라고 한다.


관심 대상이 되는 모든 개체의 모임을 모집단이라 하고, 모집단을 알기 위해 실제로 관측한 모집단의 일부를 표본이라고 한다. 모집단을 잘 대표하는 표본을 표집하는 방법 중 가장 기본이 되는 방법은 단순랜덤표집.

 

모수는 우리가 알고 싶은 모집단의 특성을 나타내는 대표값

모수를 알기 위해 표집한 표본의 특성을 나타내는 대표값을 통계량

 

 

728x90

'통계&데이터사이언스 > 통계학개론' 카테고리의 다른 글

확률분포와 표본분포 2  (0) 2024.05.04
확률 및 확률분포함수 2  (0) 2024.05.04
확률 및 확률분포함수 1  (1) 2024.05.04
데이터 요약 2  (0) 2024.05.04
데이터 요약 1  (0) 2024.05.04