통계&데이터사이언스/데이터과학개론

데이터과학개론 09. 새로운 개념의 R 데이터 구조

데이터 시오 2024. 12. 23. 10:25
728x90
반응형

1. Tidyverse 환경

Tidyverse

데이터 사이언스를 위해 설계된 패키지의 조합

기본적인 디자인 철학이나 문법, 데이터 구조를 공유한다

 

install.packages("tidyverse")로 설치

 

tidyverse 주요패키지

tibble

ggplot2

readr

purrr

dplyr

stringr

forcats

 

2. tibble의 개념 & 활용

tibble() 함수

tibble 데이터 프레임을 생성하는 함수

- 데이터 편집 & 표현이 간단하다

- 상대적으로 큰 용량의 데이터 처리에 용이하다

- 변수 속성 지정이 용이하다 (데이터 편집 상 오류를 방지한다)

 

as.data.frame() & as_tibble() 함수

tibble 데이터 프레임과 기존의 데이터 프레임과 상호 간의 변환을 실행한다

 

3. dplyr을 이용, 데이터 프레임 편집

dplyr

데이터 편집을 유연하고 폭넓게 할 수 있도록 돕는 패키지이다

tibble 데이터 환경에서 매우 활용도가 높은 함수를 제공한다

 

dplyr의 주요 함수

fillter

arrange

select

mutate

group_by

summarize

 

728x90