바이오통계학 Biostatistics
통계학의 원리를 의학, 보건학, 생물학에 적용하는 학문
통계학 statistics
데이터의 수집, 요약, 분석과 분석의 결과에 대한 해석에 관한 학문
통계학의 기본 개념
모집단 Population
⮕ 관심 대상이 되는 모든 개체의 모임
표본 Sample
⮕ 모집단을 알기 위해 실제로 관측한 모집단의 일부
모수 Parameter
⮕ 모집단의 특성을 나타내는 대표값
통계량 Statistic
⮕표본의 특성을 나타내는 대표값
🔺데이터
표본/모집단에 대해 하나 이상의 변수의 관찰값을 모은 것
모집단의 일부인 표본을 관측하여 기록한 것이다
주로 표 형태로 정리한다
단위 / 케이스 : 관측된 개별 개체
변수 :개별단위에 대해 관측한 특성
관찰값 : 각 단위로부터 관측한 변수의 값
연속형 변수 Continuous variable
⮕어떤 실수 구간 안의 모든 값을 가질 수 있는 변수
범주형 변수 Categorical variable
⮕유한 개의 범주 중 하나의 값을 취하는 변수
R & Rstudio
1. 데이터를 csv 파일 형태로 저장후 read.csv() 함수
setwd("C:/Users/KNOU_stat/R_codes")
dat0<read.csv("biostat_ex_data.csv")
summary(dat0)
2. 데이터 형태type 변경
dat0 %>% mutate_at (vars(sex, Recur, stage,obesity,
Recur_ly, post.CA19.9.binary,post.CA19.9.3grp),
as.factor
summary(dat1)
데이터 요약
도수분포표 : 각 범주의 출현빈도를 정리한 표
막대그래프 : 각 범주별 도수 / 비율을 막대 높이로 나타낸 그래프
✅ggplot 패키지
그래프를 만들 수 있는 패키지
ggplot(data = <DATA>) +
<Geom_function>(mapping = aes(<mapping>))
geom_function은 mapping=aes()구문을 통해 x축과 y축 변수를 지정
그래프의 종류에 따라 다른 geom_function을 사용
✅연속형 데이터의 요약
데이터의 중심위치
- 평균
- 중앙값
데이터의 퍼진 정도
- 분산
- 표준편차
- 범위
- 사분위수 범위
도수분포표
히스토그램
Boxplot