[ADsP] 데이터의 가치와 미래
빅데이터의 정의
빅데이터는 일반적인 데이터 베이스 SW로 저장, 관리, 준석 할 수 있는 범위를 초과하는 규모의 데이터
저렴한 비용으로 가치 추출, 데이터의 초고속 수집, 발굴, 분석을 지언하도록 고안된 차세대 기술 & 아키텍처
(1) 3V
- Volume (양): 데이터의 규모 측면
- Variety (다양성): 데이터의 유형과 소스 측면
- Velocity (속도): 데이터의 수집과 처리 측면
== 투자비용요소로 취급한다.
4V
== Value : 비즈니스 효과 요소로 본다.
(2) 데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위의 정의가 있다.
- 새로운 처리, 저장, 분석 기술 및 아키텍처
- 클라우드 컴퓨팅 활용
(3) 인재, 조직 변화까지 포함해 넓은 관점에서의 빅데이터에 대한 정의가 있다.
- 새로운 인재 필요
- 데이터 중심 조직
빅데이터의 출현배경
빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.
빅데이터의 출현에 따른 변화
기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출. 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
사용자 로그(log) 정보 (사용자가 인터넷에 접속한 시간과 정보, 검색기록 등)에 대한 프로파일링이 이루어지기 시작하면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상
빅데이터에 거는 기대를 잘 표현한 비유
빅데이터는 차세대 산업혁명에서 석탄과 철 역할을 할 것으로 기대된다. 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회·경제·문화·생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
빅데이터는 21세기의 원유에 비유된다. 우리가 살고 있는 사회 저변을 떠받치는 에너지원인 원유처럼 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다.
예) 구글의 Ngram Viewer
빅데이터는 플랫폼 역할을 할 것으로 기대된다. 최근에는 다양한 서드파티 비즈니스에 빅데이터가 활용되면서 플랫폼 역할을 할 것으로 전망
빅데이터 가치 선정이 어려운 이유
데이터 활용방식
재사용 , 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다.
새로운 가치 창출
데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다
분석기술의 발달
지금은 가치가 없더라고 새로운 분석기법의 등장으로 거대가치창출 가능성이 있다.
빅데이터가 만들어 내는 본질적인 변화
사전처리에서 사후처리
표본조사에서 전수조사
질보다 양
인과관계에서 상관관계
비즈니스 모델
빅데이터 활용 기본 테크닉
연관규칙학습은 어떤 변수들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법이다.
유형분석(분류)은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인 수강생들을 특성에 따라 분류할 때 사용한다.
기계 학습은 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법이다.
회귀 분석은 독립변수와 종속변수의 관계를 파악할 때 사용한다.
감정 분석은 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.
소셜 네트워크 분석은 특정인과 다른 사람이 몇 촌정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 찾아낼 때 사용한다.
유전자 알고리즘은 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다.
위기 요인과 통제 방안
사생활 침해 → 동의에서 책임으로
빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다.
책임 원칙 훼손 → 결과 기반 책임 원칙 고수
빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다.
데이터 오용 → 알고리즘 접근 허용
빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. 대응책으로 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.
미래의 빅데이터
미래의 빅데이터
데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문 인력
빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자 전문가 역할을 할 것으로 기대