1. 외부 데이터와 내부 데이터
외부데이터
일반인에게 공개되어 있는 데이터
- 통계 데이터베이스 형태로 제공
- 공개 API 로 제공
내부데이터
데이터를 수집하는 기업 등의 목적에 따라 데이터베이스에 축적
- 외부에 공개되지 않고 분석업무 및 의사결정 등에 사용
2. 데이터의 수집
데이터 수집의 목적
분석을 담당하는 데이터 과학자의 의중에 따라 특별한 목적을 가지고 데이터를 수집
- 기업경영과 관련된 문제, 비즈니스 문제인 경우에는 의사결정에 이르는데 도움이 될 만한 데이터 분석과장이 필수적
==> 분석의 궁극적인 목적이 무엇인지 명확히 정의한 후 데이터를 수집
빅데이터 환경에서의 데이터 수집
검색 데이터를 수집하여 이용하는 방법
소셜네트워크서비스 데이터를 수집하여 이용하는 방법
웹문서 데이터를 수집하여 이용하는 방법
공공 데이터를 수집하여 이용하는 방법
검색데이터
검색 포털에서 개인이 검색을 위해 입력한 자료를 축적한 데이터
소셜데이터
SNS에 올린 메시지, 사진, 동영상 등 자료의 집합
웹문서
웹상에서 사용되는 문서로서 통합검색의 결과 노출되는 문서
- 최대한 웹문서의 구조를 잘 지키는 동시에 최적화를 통해 적절한 검색이 이루어지도록 작성
- 최적화는 크롤링과 인덱싱 두가지가 있다
- 웹문서의 데이터를 수집하기 위해서는 웹사이트의 구조를 파악할 필요가 있다
공공데이터
공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 데이터
3. 데이터베이스
데이터베이스
여러사람들이 공유하여 이용하기 위해 통합 관리되는 정보의 집합
(통합된 형태의 연과성 높은 데이터의 집합)
- 한 개 이상의 자료가 논지적으로 연결되어 축적되며 이 축적 과정에서 구조화 방법을 이용
데이터베이스의 특징
통합된 데이터
데이터의 연관성
데이터 중복의 최소화
보조기억장치 활용
동시공유
최신의 데이터 유지
일관성, 무결성
보안성
데이터베이스의 단점
전문 지식을 지닌 데이터베이스 전문가가 필요하다
전산화 및 관리에 소요되는 비용이 크다
대용량 디스크로의 접근이 집중되면 과부화가 발생할 우려가 있다
데이터 백업과 복구가 어렵고 시스템이 복다
데이터베이스 모델의 의미
데이터의 논리적 설계와 그들 간의 관계를 표현한 것
- 데이터베이스 설계과정에서 데이터의 구조를 표현하기 도구
데이터베이스 관리 시스템 (DBMS) 의미
다수의 사용자들이 데이터베이스 내의 데이터에 접근할 수 있도록 도와주는 소프트웨어의 집합
데이터베이스 관리 시스템의 장점
자료와의 관계성을 정의하기 때문에 자료 통합이 증진된다
DBMS를 통해 데이터의 접근이 매우 용이하다
데이터의 논리적, 물리적 독립성이 보장된다
애플리케이션 프로그램들을 쉽게 개발하고 관리할 수 있다
'통계&데이터사이언스 > 데이터과학개론' 카테고리의 다른 글
데이터과학개론 06.빅데이터의 분석 도구 (1) | 2024.12.23 |
---|---|
데이터과학개론 05.데이터의 품질과 표현 (0) | 2024.12.23 |
데이터과학개론 04.데이터의 분석 (0) | 2024.11.27 |
데이터과학개론 02.데이터과학 (2) | 2024.11.27 |
데이터과학개론 01. 데이터의 개념과 속성 (1) | 2024.10.09 |