본문 바로가기
컴퓨터사이언스

빅데이터

by 데이터 시오 2024. 5. 28.
728x90
반응형

1. 빅데이터 

> 빅데이터의 정의 

빅데이터(Big Data) - 대용량의 정형 비정형 데이터 집합 

 

데이터는 구조나 색인 여부에 따라 구분됨 

정형 데이터 

반정형 데이터 

비정형 데이터 

 

정형 데이터 

- 저장될 데이터에 대해 미리 정해진 규칙을 정의한 후, 그에 따라 저장된 데이터

- 마이크로소프트의 엑셀이나 관계형 데이터베이스의 테이블이 그 예에 해당함 

- 열은 속성을 정의, 행은 구체적인 값을 의미

 

비정형 데이터 

- 정형 데이터가 아닌 데이터 

- 텍스트, 이미지, 오디오, 비디오와 같은 형태

- 비정형 데이터에도 일부 정형 데이터가 포함될 수 있음

 

반정형 데이터 

- HTM, XML, JSON과 같은 포맷

- 일반적인 데이터베이스는 아니지만 일부 스키마를 가지고 있음

 

빅데이터는 볼륨, 속도, 다양성 = 3V

 

최근에는 3V + 2V,

- 정확성 Veracity 

데이터 크기가 커짐에 따라 일정한 패턴을 찾기 곤란해질 수 있다.

빅데이터를 분석하기에 앞서 수집한 데이터가 정확하고 가치가 잇는 것인지 판단해야 한다. 

 

- 가치 Value

빅데이터를 분석함으로써 기업이나 조직의 현실 문제 해결에 도움이 될 수 있는 가치를 얻을 수 있어야 한다

 

> 빅데이터의 특징 

다양한 원천 데이터가 있다

여러 산업에서 데이터의 중요성이 부각되고 있고 그 중 하나가 거래 데이터이다

유통, 물류, 금융 관련 업체에서 생성되는 거래 데이터는 정형 데이터 뿐만 아니라 비정형/반정형 데이터를 포함한다 

2. 빅데이터 관련 기술 

빅데이터를 올바르게 활용한다면, 사업 내의 개선 사항을 발굴하거나 인사이트를 제공할 수 있다

조직이 빅데이터를 활용하기 위한 4단계 과정 

1. 빅데이터 수집

2. 빅데이터 적재

3. 빅데이터 처리

4. 빅데이터 분석 

 


1) 빅데이터 수집

대용량의 데이터 집합

여러 데이터 소스로부터 수집되어야 한다

수집된 데이터를 처리하기 위해 대용량파일 수집과 실시간 스트림 수집 방식 

빅데이터의 특징을 만족시키기 위해 분선처리가 가능한 방식을 제공해야함

 

2) 빅데이터 적재

수집한 빅데이터를 분산 저장장치에 영구 / 임시로 저장하는 기술 

수집된 빅데이터는 이전 정형 데이터를 주로 다루를 관계형 데이터베이스와는 다른방식으로 저장되어야 한다.

 

3) 빅데이터 처리

대용량 저장소에 저장된 빅데이터를 분석할 수 있도록 데이터를 정형화 및 정규화해야한다. 

의미있는 결론을 도출하기 위해서는 수집된 데이터를 올바르게 이해해야 한다.

== >>> 적재된 빅데이터를 지속적으로 탐색하고 탐색된 결과를 정기적으로 구조화 

 

4) 빅데이터 분석 

새로운 경향이나 패턴을 찾고 올바르게 해석, 통찰력을 확보해야한다

과거의 데이터로부터 주어진 문제에 대한 원인을 찾고 이에 대한 개선 방향을 제시하려는 목적을 가진다

이전 통계학이나 데이터 마이닝 기법 뿐만 아니라 최근의 인공지능 기술을 활용할 수 있다. 

 

 

 

3. 빅데이터 응용 분야 및 해결과제 

> 응용분야     

    - 구체적인 활용분야

1. 유지보수

2. 새로운 제품 및 서비스 개발

3. 비용 절감

4. 고객 경험

5. 리스트 관리 

6. 인공지능 데이터 처리 

 

       

 

 

 

 

728x90