데이터과학개론 01. 데이터의 개념과 속성
데이터의 기초개념
데이터 : 질적인 / 양적인 변수들의 가치 집합으로서 정보의 조합
데이터의 어원
- datum의 복수형 : 주다(give)라는 뜻의 라틴어 동사 "dare"에서 비롯
- 빅데이터의 환경이 조성되면서 이러한 어원에 근거한 데이터의 의미가 부각
데이터는 정보 추출의 원천
- 데이터는 의사결정에 적합한 정보를 추출하기 위해서 사용하는 원천
- 기업의 경여활동 중 의사결정 단계에서는 총체적 역량의 결집이 필요 >>> 데이터 분석이 뒷받침
데이터의 유형
데이터의 팽창
- 빅데이터 시대의 도래로 음향 & 영상신호, 이미지 구조 등 확장된 형태의 데이터가 대량으로 등장한다
- 계량 데이터 외에 시각 / 청각을 통해 인지할 수 있는 대상도 데이터로 확인 가능하다
정형 데이터
- 속성 파악, 수집, 가공이 용이하다
- 기존 도구로 분석이 가능한 데이터
비정형 데이터
- 형태가 다양하다
- 수집/가곡/정제 과정에 많은 노력이 요구되는 데이터
반정형 데이터
- 정형 , 비정형 특성이 혼합된 데이터
범주형 데이터 - 명목형 & 순서형
- 명목형 데이터 : 순서 없이 특성을 지닌 데이터
- 순서형 데이터 : 정교한 계량화는 어렵지만 순서를 지정할 수 있는 데이터
수치형 데이터 - 이산형 & 연속형
- 수치적 크기가 명확하게 구분되어 순서형 데이터보다 많은 정보를 가진 데이터
- 수치형 데이터를 해석하고 비교하여 간격/비율 척도를 목적에 맞도록 적절하게 활용할 필요
- 연속형 데이터 : 측정 기준이 연속적
- 이산형 데이터 : 측정 기준이 불연속적
데이터의 구조
벡터
- 한 개 이상의 원소로구성된 자료구조
- 가장 기본이 되는 자료객체