본문 바로가기

전체 글97

데이터과학개론 10. 데이터 시각화의 이해 데이터 시각화의 개념 및 활용데이터 시각화데이터의 특징을 한정된 지면이나 공간 내에 효과적으로 요약하여 표현하는 도구    데이터 정보화의 도구 데이터 시각화는 데이터-정보-지식에 이르는 중요한 도구  인포그래픽  데이터 시각화와 ㅓ불어 데이터의 시각적 표현을 위한 도구- 시각화에 비해 원데이터의 노출이 상대적으로 덜하다단순화된 도형이나 차트, 일러스트레이션을 이용하여 정보를 전달나타내고자 하는 내용을 설득하는 분야 데이터 시각화와 데이터 마이닝가치있는 유용한 데이터 선별 작업은 데이터 마이닝의 기능과 관계가 깊다- 데이터 마이닝 도구가 활용되기도 하고 데이터 마이닝 과정에서 시각화가 이루어진다 데이터 시각화 3단계데이터 수집에서 표현까지 이르는 넓은 관점에서 구분한 단계- 정보 구조화, 정보 시각화, .. 2024. 12. 23.
데이터과학개론 09. 새로운 개념의 R 데이터 구조 1. Tidyverse 환경Tidyverse데이터 사이언스를 위해 설계된 패키지의 조합기본적인 디자인 철학이나 문법, 데이터 구조를 공유한다 install.packages("tidyverse")로 설치 tidyverse 주요패키지tibbleggplot2readrpurrrdplyrstringrforcats 2. tibble의 개념 & 활용tibble() 함수tibble 데이터 프레임을 생성하는 함수- 데이터 편집 & 표현이 간단하다- 상대적으로 큰 용량의 데이터 처리에 용이하다- 변수 속성 지정이 용이하다 (데이터 편집 상 오류를 방지한다) as.data.frame() & as_tibble() 함수tibble 데이터 프레임과 기존의 데이터 프레임과 상호 간의 변환을 실행한다 3. dplyr을 이용, 데이터.. 2024. 12. 23.
데이터과학개론 08.R의 기본적 데이터 구조 1. R의 설치R은 빅데이터 시대에 대표적인 프로그래밍 언어 중 하나https://www.r-project.org/ R: The R Project for Statistical Computing www.r-project.org 2. R의 전통적인 데이터 구조벡터 가장 기본이 되는구조1개 이상 원소로 구성된 자료객체수치형 벡터, 문자형 벡터, 논리형 벡터 행렬벡터의 확장행과 열을 갖는 데이터 구조matrix(), cbind(), rbind() 함수로 생성할 수 있다 배열 벡터와 행렬의 확장한 개 이상의 벡터나 행렬로 이루어진 구조 리스트서로 다른 형태의 원소로 만들어진 데이터구조 데이터프레임as.data.frame() 함수를 사용행렬을 데이터 프레임 구조로 전환할 수 있다 2024. 12. 23.
데이터과학개론 07.소스코드 관리와 공유 1. 깃(git)의 개념Git체계적으로 소스코드를 관리해주기 위한 분산 버전 관리 시스템  깃허브 Github깃에서 다룬 소스코드들을 공유할 수 있는 웹공간을 제공해줌으로써개발 및 협업이 용이하도록 도와주는 서비스 커밋 Commit파일을 새롭게 추가하거나 변경하여 저장하는 작업 푸쉬 push파일을 추가하거나 변경하여 원격 저장소에 업로드하는 작업 브랜치 Branch버전관리를 위한 구조를 생성하는 기능 2. 깃허브 등록 및 활용 깃허브 사용절차 2024. 12. 23.
데이터과학개론 06.빅데이터의 분석 도구 1. 빅데이터의 개념과 분석 절차3V 가트너가 뽑은 빅데이터 특징규모 (Volume) - 용량이 매우 방대하다속도 (Velocity) - 생성속도가 매우 빠르다다양성 (Variety) - 생성되는 데이터의 형태가 다양하다 4V or 5VValue 또는 정합성 유지의 중요성을 강조하는 Veracity 등을 포함해빅데이터의 속성을 설명하기도 한다 빅데이터 분석의 특징 모집단으로부터 추출된 표본에 근거하여 추론을 실시하는 방법만으로는 분석에 한계가 있다- 보다 유연한 분석 방법이 요구된다- 알고리즘 접근법은 유연하고 성능 좋은 모형 적합이 포함된다 그래서 빅데이터 분석에 유용하다>>>> 가공하지 않은 데이터로부터 소량의 정보나 지식을 추출하는데이터 마이닝 기법이 적절하게 활용된다 빅데이터의 특징복잡한 구조.. 2024. 12. 23.
데이터과학개론 05.데이터의 품질과 표현 1. 데이터 품질의 의의데이터 품질이란데이터를 사용하기에 적절한 환경 즉 적합성, 적시성, 정확성, 완전성, 적절성 및 접근 가능성 등 좋은 품질의 데이터적시성이 담보되는 가운데 업계 표준을 준수하는 완전하고 일관성 있는, 정확한 데이터 - 데이터 품질을 개손해, 거래 당사자는 생산성을 향상시킨다. 동시에 거래속도도 높임으로써 비용을 줄이게 된다 - 좋은 품질의 데이터는거래를 확대시키고 좋은 협업자를 발굴할 수 있는 기회를 제공한다이는, 글로벌 데이터 공유의 기본이 된다.      - 데이터 환경이 뻐르게 변화함에 따라소 데이터관리는 공공기관의 영역에서도 아주 중요한부분으로 제기된다2. 데이터 품질관리 시스템 데이터 품질관리 업무 목정을 효과적으로 달성할 수 있도록 데이터의 품질을 지속적으로 관리하는프로.. 2024. 12. 23.
반응형