본문 바로가기
통계&데이터사이언스/바이오통계학

바이오통계학 01. 통계학의 기본 개념과 데이터 요약

by 데이터 시오 2024. 10. 9.
728x90
반응형

바이오통계학 Biostatistics

통계학의 원리를 의학, 보건학, 생물학에 적용하는 학문

 

통계학 statistics

데이터의 수집, 요약, 분석과 분석의 결과에 대한 해석에 관한 학문


통계학의 기본 개념

모집단 Population

⮕ 관심 대상이 되는 모든 개체의 모임

 

표본 Sample

⮕ 모집단을 알기 위해 실제로 관측한 모집단의 일부

 

모수 Parameter

⮕ 모집단의 특성을 나타내는 대표값

 

통계량 Statistic

⮕표본의 특성을 나타내는 대표값

 

🔺데이터

표본/모집단에 대해 하나 이상의 변수의 관찰값을 모은 것

모집단의 일부인 표본을 관측하여 기록한 것이다

주로 표 형태로 정리한다

 

단위 / 케이스 : 관측된 개별 개체

변수 :개별단위에 대해 관측한 특성

관찰값 : 각 단위로부터 관측한 변수의 값

 

연속형 변수 Continuous variable

⮕어떤 실수 구간 안의 모든 값을 가질 수 있는 변수

 

범주형 변수 Categorical variable

⮕유한 개의 범주 중 하나의 값을 취하는 변수


 

R & Rstudio

1. 데이터를 csv 파일 형태로 저장후 read.csv() 함수

setwd("C:/Users/KNOU_stat/R_codes")
dat0<read.csv("biostat_ex_data.csv")
summary(dat0)

 

2.  데이터 형태type 변경

dat0 %>% mutate_at (vars(sex, Recur, stage,obesity,
                                  Recur_ly, post.CA19.9.binary,post.CA19.9.3grp),
                        as.factor
summary(dat1)

 


데이터 요약

도수분포표 : 각 범주의 출현빈도를 정리한 표

막대그래프 : 각 범주별 도수 / 비율을 막대 높이로 나타낸 그래프

 

✅ggplot 패키지

그래프를 만들 수 있는 패키지

ggplot(data = <DATA>) +

       <Geom_function>(mapping = aes(<mapping>))

 

geom_function은 mapping=aes()구문을 통해 x축과 y축 변수를 지정

그래프의 종류에 따라 다른 geom_function을 사용

 

✅연속형 데이터의 요약

데이터의 중심위치

- 평균

- 중앙값

 

데이터의 퍼진 정도

- 분산

- 표준편차

- 범위

- 사분위수 범위

 

도수분포표

히스토그램

Boxplot

 

 

 

728x90