데이터 시오 2024. 3. 22. 09:29
728x90
반응형
  1. 데이터(data) : 어떤 관심 있는 주제에 대해서 수집된 구조화된 정보(organized information)를 말함. 넓은 의미의 데이터는 수치, 문자, 그림 등의 표현양식과 관계없이 어떤 주제에 대한 구조화된 정보를 뜻함
  2. 케이스(case) : 특정 조사단위로부터 얻어진 정보의 집합체를 말함
  3. 변수(variable) : 각 조사단위로부터 측정된 개별적인 속성들
  4. 명목척도(Nominal scale) : 측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치를 부여하는 경우에 해당함. 단순히 범주 구분이 목적으로 수치의 대소 비교, 연산은 의미 없음
  5. 순서척도(Ordinal scale) : 어떤 특성을 많고 적음에 따라 몇 개의 수치범주로 구분하여 수치를 부여하는 경우에 해당함. 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있음
  6. 구간척도(Interval scale) : 측정대상을 속성에 따라 서열화 함은 물론 서열간의 간격이 같도록 수치를 부여하여 측정하는 경우에 해당함. 연속형 값으로 측정값의 차이는 의미 있지만, 비(比)는 의미 없음

1. 데이터란 무엇인가

 

🔖데이터 Data

어떤 관심있는 주제에 대해서 수집된 구조화된 정보 (organized information)

일반적인 의미의 데이터는 수치, 문자, 그림 등의 표현양식과 관계없이 어떤 주제에 대한 구조화된 정보를 뜻한다. 

 

🔖데이터의 특징

어떤 관심있는 주제에 대하여 얻어진 것

분석에 알맞은 일정한 규칙과 형태로 수집되고 정리됨

분서과정을 통해서 유용한 정보(information)로 변환

조사나 실험을 통해서 수집되어 알맞은 형태로 변환

 

🔖통계적 테이터(statistical data)

수치적 계산과 통계적 분석에 알맞은 데이터

 

🔖데이터 분석의 목적

자연 및 사회현상에 대한 정확한 현상(집단의 특징) 파악

왜 그런 현상이 나타나게 되었는지(인과관계) 규명

경제. 사회현상 속에 숨어 있는 법칙성 발견

    -------->>> 미래상황 예측으로 합리적인 의사결정 도움


2. 측정의 수준과 데이터 종류

🔖데이터 수집 방법

통계조서, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정방법(측정도구, 질문지)으로 측정하여 얻음

측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업

예 : 표본으로 봅힌 사람들의 몸무게, 지능, 혹은

        취업상태 등을 관측하여 수치로 나타내는 경우

>>> 측정된 전체 자료를 데이터Data라고 한다. 

 

🔖데이터 관련 기본용어

케이스(case 레코드) : 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체

변수(variable 필드) : 각 조사단위로부터 측정된 개별적인 속성

 

🔖데이터의 행렬 형태 표현

데이터를 형렬 형태로 표시하면 이해하기 쉽다

각 행은 케이스(레코드), 각 열은 변수(필드)가 된다

결측값 - 입력이 누락된 값, 보통 NA로 출력된다. 

 

🔖측정의 수준

측정수준 종류 - 명목척도, 순서척도, 구간척도, 비율척도

 

  🐯🐯명목척도 (명명척도 : Nominal scale)

측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여

단순히 범주 구분이 목적이다 ( 즉, 수치의 대소비교, 연산은 의미 없다)

ex) 남여구분, 운동선수 등번호, 거주지 등

 

  🐯🐯순서척도 (서열척도 : Ordinal scale)

어떤 특성을 많고 적음에 따라 수치 부여

수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미가 있다

ex) 제품이나 서비스의 질을 묻는 질문

 

   🐯🐯구간척도 (등간척도 Interval scale)

측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치 부여

연소성 값으로 측정값의 차이는 의미가 있지만, 비(比)는 의미가 없다

절대 0을 정의할 수 없고, 임의로 지정된 0만 있다

ex) 섭씨온도, IQ, 적성검사 점수 등

 

   🐯🐯비율척도 (Ratio scale)

구간척도와 유사하지만 측정값의 차이뿐만 아니라 비(比)도 의미가 있는 경우

절대 0을 정할 수 있다

ex) 소득, 체중, 신장, 시간 등

 

🔖 데이터의 구분

1. 측정 수준에 따른 구분

  질적변수(quantitative variable)

  양적변수(quantitative variable) : 연속형 변수

 

2. 측정되는 변수의 수에 따른 구분

  일변량 데이터

  다변량 데이터

 


3. 데이터의 입력

🔖 부호화(coding, 코딩) 의미

수집된 설문지의 응답결과나 관측결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정

연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력이 가능하다

여러 사람이 부호화 작업에 참여할 때는 부호화의 일관성을 유지하도록 부호화 지침서(code book) 를 만들어 사용한다

 

🔖 데이터 코딩 설계

조사/실험을 통해서 얻은 데이터를 입력할 때 어떻게 입력을 해야 더 간편하고 효과적으로 분석할 수 있는지를 구상하는 것

ex) 지방자치제도가 지역발전에 미친 영향을 살펴보기위해 표본 조사를 실시하는 사례

 

🔖 부호와(coding 코딩)

1. 텍스트파일 

ASCII 코드형식으로 저장된 파일이기 때문에 아스키 파일이라고도 한다

한글로 일정한 약식의 데이터를 입력후 파일형식을 텍스트 파일로 저장한다

자유형식(Free format)과 고정형식(Fixed format)으로 구분

- 자유형식 : 변수와 변수 구분은 공란Black 으로 구분

- 고정형식 :  각 변수가 위치할 열(컬럼)dmf wjdgks gn dlqfur

 

2. 스프레드시트나 데이터베이스 파일

엑셀 등으로 간편한 데이터 입력이 가능

열 : 변수 , 행 : 케이스

 

3. SPSS에서 데이터 입력

직접 데이터를 입력하거나 텍스트 파일, 엑셀 파일 등을 읽을 수 있다

 

4. SAS에서 데이터 입력

SAS 편집기에 데이터를 직접 입력하거나 외부입력 파일을 읽어온다

 

5. S-link에서 데이터 입력

직접 S-Link 워크시트에 데이터를 입력하거나 외부의 텍스트 파일이나 엑셀 파일을 읽을 수 있다


4. 데이터의 점검

🔖 디버깅

입력 오류나 또는 조사상의 실수로 인한 오류(bug)를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석하는 것

 

🔖 데이터 입력 오류 점검(데이터가 큰 경우)

각 변수의 입력 범위를 확인하는 방법

변수들간의 논리적 일관성 여부를 확인하는 방법

 

🔖 각 변수의 입력 범위를 확인하는 방법

ex) 남자가 1 여자가 2인 성별 변수를 선언

>> 변수 값이 1보다 작거나 2보다 큰 경우가 있다면

     입력 과정에서 오류가 발생 or 응답자의 잘못된 응답 or 조사원의 실수

 

🔖 변수들간의 논리적 일관성 여부를 확인하는 방법

ex) 환자의 성별과 암의 종류간의 교차표를 작성

>> 남자인데 자궁암의 값이 들어있는 경우

      해당 케이스의 관측값을 확인하여 환자 성별이나 암 종류에 대한 입력오류 여부 확 

728x90