자격증/빅데이터분석기사

빅데이터분석기사 3장 4장

데이터 시오 2024. 3. 27. 10:47
728x90
반응형

3장 : 빅데이터 모델링

1. 분석모형설계

(1) 분석모형선정
: 통계분석, 데이터마이닝, 머신러닝

(2) 분석모형정의
: 변수선택, 하이퍼파라미터 튜닝
- 파라미터 : 모형 내부요소, 성능에 직접 영향
- 하이퍼파라미터 : 모형 외부요소, 파라미터 결정에 사용, 성능에 간접 영향
- 튜닝방법 : 매뉴얼 서치(경험적), 그리드 서치(가능한 모든 조합), 랜덤 서치

(3) 분석모형구축
- 분석 도구 선정
- 데이터 분할 : 학습/검증/테스트 데이터
• 홀드아웃(랜덤)
• K-fold 교차
• 부트스트랩 : 분포가 쏠리거나 적을 때, 복원으로 데이터의 63.2% 포함 샘플 생성

2. 분석기법적용

(1) 의사결정나무분석
- 불순도 감소량 가장 크게 분할, 최적 분리규칙, 적절한 정지규칙 만족하면 성장 중단
=> 장점(해석용이, 비모수적, 유연성, 정확성), 단점(비연속성, 선형성결여, 비안정성)
- 가지치기 : 불필요한 가지를 제거, 모형의 복잡도 감소
• 이산형 : CHAID(카이제곱 통계량), CART(지니계수), C4.5(엔트로피)
• 연속형 : CHAID(ANOVA F-통계량), 분산감소량

(2) 인공신경망
- 활성함수
• Sigmoid : 0~1 곡선 ☞ 기울기 소실(은닉층 거칠때 값이 0으로 수렴) 발생
• ReLU : 0 이하는 0, 0 이상은 그대로 출력
=> Sigmoid 기울기 소실을 해결 가능하고 빠르지만 0보다 작으면 작동 안함
• Tanh : -1~1 ☞ Sigmoid 확장으로 학습속도 빠름
- 종류
• 단층퍼셉트론 : AND/OR 연산 가능, XOR 선형분리 불가
• 다층퍼셉트론 : 비선형 학습 가능하나 과적합, 기울기 소실 이슈 발생

(3) 딥러닝 분석
- CNN : 이미지 처리 특화
- RNN : 순환신경망
• 경사소실방지 : LSTM, GRU, Attention
• 경사증폭방지 : Gradient Clipping
- GAN : Generator, Discriminator 대립을 통한 성능 개선

(4) 회귀분석
- 가정 : 선형성(독립변수와 종속변수), 독립성(잔차와 독립변수), 등분산성(잔차의 분산), 정규성(잔차항이 정규분포)
- 회귀분석
• 회귀계수 = 상관계수*(Y표준편차/X표준편차), 결정계수=상관계수²
• 단순선형회귀(독립변수 1)
・ 추정 : 최소 제곱법(=자승법, 제곱합을 만들어 최소값 계산)
・ 검정 : 회계계수(0이면 입력/출력 변수 인과관계 없음)
결정계수(R² = 회귀제곱합(SSR) / 전체제곱합(SST), 0~1사이)
• 곡선회귀(독립변수 1, 2/3차 곡선)
• 다항회귀(독립변수 2, 2차함수)
• 다중선형회귀(독립변수 N)
・ 모형 유의성 : F-통계량으로 확인
=> F-통계량이 크면 P-Value가 0.05보다 작아 모형이 유의미
・ 계수 유의성 : t-통계량
・ 검정 : 결정계수(R²)
• 비선형회귀
- 로지스틱회귀분석(종속변수가 범주형)
• 모형 유의성 : Deviance(이탈도, 모형이 설명 못하는 데이터 정도) ☞ 적을수록 유의
• 계수 유의성 : Ward 검정(독립→종속변수 미치는 영향)
=> 검정통계량 z-value의 p-value가 유의수준보다 작으면 유의함
• 검정 : 의사결정계수(AIC)가 작을수록 설명력 좋음
- 규제가 있는 회귀분석 : 가중치 제한으로 차수 감소하여 다중공선성 문제 해결
• 라쏘 회귀 : 절대값 규제항, 중요하지 않은 변수(0) 제거로 검정오차 최소화
• 릿지 회귀 : 제곱 규제항을 조정 변수간 검정오차 최소화
• 엘라스틱 회귀 : 릿지와 라쏘를 혼합하여 비율 조정

(5) SVM(Support Vector Machine)
- 지도학습, 비확률 선형 판별 기반 이진 분류기(사물인식, 패턴인식, 손글씨 인식)
• 서포트벡터 : 결정경계에 가까이 있는 학습 데이터들의 집합
• 슬랙 변수 : 완전한 분리 불가능시 허용된 오차를 위한 변수
• 커널 트릭 : 선형분류 불가능 데이터를 차원 증가시켜 분리를 돕는 함수
= 가우시안 RBF, Sigmoid 등
- 유형
• Hard Margin : 잘못된 분류 비허용, 노이즈로 최적경계 구하지 못할 수 있음
• Soft Margin : 잘못된 오분류 허용

(6) 베이지안 기법(조건부 확률)
- 베이지안 확률 : 표본이 특정 사건에 포함된다는 주장에 대한 신뢰도
- 베이즈 정리 : 신규 데이터를 기반으로 베이지안 확률을 갱신(사전/사후 확률)
- 나이브베이즈 : 베이즈기반 지도학습 분류(속도 빠르나 신규데이터는 조건부 확률이 0)

(7) 연관성 분석(= 장바구니분석, 서열분석)
- 지지도=N(A∩B)/N(전체), 신뢰도=N(A∩B)/N(A), 향상도=신뢰도/(N(B)/N(전체))

(8) 군집분석
- 군집간 거리측정
• 최단연결, 최장연결, 중심연결, 평균연결, 와드연결(군집내부 오차 제곱합 기준)
- 군집간 거리계산
• 수학적 : 유클리드, 맨해튼(두점 차 절대값), 민코프스키(m=1 맨해튼, 2 유클리드)
• 통계적 : 표준화거리, 마할라노비스거리(표준화와 상관성 동시 고려)
- 유형
• K-평균 군집 : 하드 군집, 대용량 데이터에 적합
• 혼합분포군집 : 소프트 군집, EM 알고리즘 이용 확률 계산으로 군집 수행
= 이상치에 민감하고 군집이 너무 작으로 추정 어려움
• 계측정 군집(병합/분할) : 계통도(덴드로그램)
• 자기조직화지도(SOM) : 자기조직화지도(입력, 경쟁층 비지도 신경망)를 통한 군집화

(9) 시계열 분석
- 정상성 : 시점에 관계없이 평균, 분산, 공분산이 일정
• 비정상성 확인 : ACF(자기상관함수), PACF(부분자기상관함수)
• 비정상 시계열 정상화 : 이상치 제거/대체, 평균→차분, 분산→변환
- 시계열 회귀분석
• 분해법 : 시계열 성분이 독립적이라는 가정하에 성분 분해(불규칙, 추세, 계절, 순환)
• 지수평활법 : 최근 관측치가 더 높으면 가중치 부여
• 이동평균법 : 모든 시점 동일 가중치 이동평균 계산
- 시계열 회귀모형
• 자기회귀모형(AR) : ACF(지수적 감소/소멸), PACF(시차 P이후 0으로 절단)
• 이동평균모형(MA) : ACF(시차 q이후 0으로 절단), PACF(지수적 감소/소멸)
• 자기회귀이동평균모형(ARMA) : ACF와 PACF(시차 q-p이후 지수적 감소/소멸)
• 자기회귀누적이동평균모형(ARIMA) : d번 차분화로 정상화 후 ARMA 차수 결정
• 계절형자기회귀이동평균모형(SARIMA)

(10) 다변량 분석
- 상관관계분석 : 피어슨(비선형관계 X), 스피어만(비선형관계 O)
- 다변량 분산분석(MANOVA) : 2개 이상 종속변수의 분산 분석

(11) 범주형자료 분석
- 연속형(종속변수)
• t-검정 : 단일표본, 독립표본(두집단), 대응표본(동일집단 사전/사후)
• 분산분석(ANOVA)
- 범주형(종속변수)
• 분할표분석(= 교차표)
・ 상대위험도(RR) : 두 집단 사건발생 확률비, 코호트 연구에 이용
・ 승산비(OR, 오즈비) : 환자-대조군 연구에 활용
=> 오즈 : 특정 집단의 사건발행 확률과 사건이 발생하지 않을 확률의 비
• 카이제곱검증 : 동질성(분포 유사), 독립성(연관성), 적합도(분포 동일)
• 피셔의 정확 검정 : 빈도수 적을 때 모든 경우의 수를 초기하분포기반 직접 확인

(12) 비모수 통계 
- 모집단의 분포를 가정(모수통계)하지 않고 명목/서열 척도를 활용해 검정
= 통계량 산식이 단순/직관적, 표본 사이즈가 작아도 활용가능하며 이상치 영향 적음
= 표본사이즈가 크면 계산량이 과도
- 부호검정(Sign Test) : 부호만을 고려 중앙값 검정 ☞ 연속/독립성 가정
- 윌콕슨부호순위검정 : 부호 상대적 크기 고려 중앙값 검정 ☞ 연속/독립/대칭성 가정
- 만-위트니 U 검정(= 윌콕슨 순위합 검정) : 두 모집단간 중앙값의 위치를 비교
- 크루스칼-왈리스 검정(= 순위기반 일원 분산 분석) : 세개 집단 이상의 분포를 비교
- 런검정 : 각 표본이 독립적인지 검정
- 스피어만 순위 상관계수 : 두 변수의 순위 값을 기반으로 상관관계를 평가

(13) 비정형 데이터 분석
- 텍스트 마이닝
• 전처리 : Cleansing, 토큰화, 불용어제거, 어간추출, 표제어추출
• 의미추출 : 의미있는 데이터로 변환
• 패턴분석
- 감성분석(오피니언마이닝)
- 소셜네트워크분석
• 분석속성 : 명성, 응집력, 범위, 중개, 구조적 등위성
• 분석지표 : 밀도(연결정도, 포괄성), 중심성(연결정도, 근접, 매개, 위세)

(14) 앙상블 분석
- Bagging : 부트스트랩 샘플링 → 각각 모형을 병렬학습 → 결과를 집계(보팅)
• 소프트 보팅(높은 확률), 하드 보팅(가장 많이 나온 결과를 포함)
• 랜덤포레스트 : 의사결정나무 기반 앙상블 알고리즘
= 의사결정트리의 편향을 유지, 분산은 감소하므로 예측력 증가
- Boosting
• 예측력 약한 모형을 순차적 결합, 데이터 가중치 재조정으로 예측력 강화
= 불균형 데이터에 적합, 정확도를 높으나 과적합 가능성이 높고 이상치에 취약
• AdaBoost
• GBM : 가중치 조정시 경사하강법 적용하는 탐욕 알고리즘
= 과적합 확률 높고 학습시간 길다
• XGBoost : Level-wise 대칭 트리 활용
= 시스템 최적화(병렬화, 가지치기), 알고리즘 고도화(정규화, 결측치처리, 교차검증)
• Light GBM : Leaf-wise 비대칭 트리 활용
- Stacking : 여러 분석 모형 예측을 종합, 최종 모형(블렌더=메타학습기)을 만들고 예측


4장 : 빅데이터 결과 해석

1. 분석모형 평가 및 개선

(1) 분석모형오류 : 일반화 오류(과대적합), 학습오류(과소적합)

(2) 모수 유의성 검정
- 모수검정 : 모집단 분포 가정, 표본의 평균/표준편차 이용 차이 검정
• 분산검정(ANOVA) : 두 집단 평균 비교
• F-검정 : 두 집단 분산 차이 검정 ☞ 자유도가 클수록 정규분포
• t-검정 : 모집단 표준편차가 알려지지 않고, n<30일때 두 모집단간 차이를 검정
= 1Way 평균값 검증, 2Way 두집단 평균 비교
• z-검정 : 추출 표본이 모집단 속하는가
• 카이제곱검정 : 긴 꼬리 모양, 범주형 데이터에 사용
= 분산 알 때 적합성, 독립성, 동일성 검증
- 비모수검정 : 모집단 분포 가정 없이 차이를 검정
= 표본의 수가 30개 미만으로 적을 때, 명목/서열 척도인 경우 사용

(3) 적합도 검정(관측치 분포의 적합도를 확인)
- Q-Q Plot : 관측치 분포가 정규분포에 얼마나 가까운지 시각적 표현
- 카이제곱검정 : 범주형 데이터에 적용
- 샤피로 윌크 검정 : 데이터 정규성 검정
- 콜모고로프 스미르노프 : 데이터 누적/예상 분포함수를 비교 분포 검정
= 비모수 검정, 연속형 데이터 적용 가능

(4) 분석모형평가
- 회귀모형
• MAE(평균절대오차), MAPE(평균절대백분율오차)
• MSE(평균제곱오차), RMSE(평균제곱근오차)
=> 결정계수(R²) = SSR/SST = (SST-SSE)/SST = 1-(SSE/SST) ☞ 1 근접시 좋은 모델
・ SST(전체 제곱근합) = (관측치-평균)²의 합
・ SSR(회귀 제곱근합) = (예측치-평균)²의 합
・ SSE(오차 제곱근합) = (관측치-예측치)²의 합
- 분류모형
• 혼동행렬 : 실제값과 예측값의 조합 표(TP, TN, FP, FN) 예측값 기준
・ 정확도 = TP+TN / TP+TN+FP+FN
・ 정밀도(P) = TP / TP+FP
・ 민감도(=재현율 R =참긍정률 TPR) = TP / TP+FN → 초기단계, 높아야
・ 특이도 : TN / TN+FP ☞ 최종단계, 높아야
・ F1 Score : 2 (PR) / (P+R)
・ 거짓긍정률(FPR) = FP / TN+FP = 1 - 특이도
• ROC 곡선 : X축에 FPR, Y축에 TPR을 두고 0~1까지 그린 곡선
=> 곡선의 면적(AUC) 값이 1에 가까울수록 성능 우수

(5) 분석모형 진단
- 교차검증
• 홀드아웃(무작위로 7:3또는 8:2)
• K-fold
• 리브-p-아웃(데이터중 P개의 관측치만 검증데이터)

(6) 분석모형 개선
- 과대적합 방지 : 학습 데이터 수 증가, 가중치 규제, 교차검증
• 가중치 규제 : L1(가중치 절대값 합), L2(가중치 제곱의 합)을 손실함수에 추가
- 매개변수 최적화 → 손실함수 최소화(손실함수 구하기 복잡)
• 경사하강법(SGD) : 손실함수 기울기 최소화, 배치/확률적/미니배치 방식이 있음
• 옵티마이저(확률적 경사하강법 개선)
・ 모멘텀(알파) : 매개변수 변경 방향에 가속도 부여 => 보통 0.9
・ Adagrad : 매개변수마다 학습률을 다르게(학습률이 적을수록 가중치)
=> 최적값 도달전 학습률이 0에 가까워지는 문제 있음
・ RMSProp : Adagrad의 문제점 개선, 지수가중이동평균값 이용 가중
・ Adam : 모멘텀 + RMSProp, 가장 많이 사용
o 최종모형선정 : 정확도, 정밀도, 재현율 성능지표 활용

2. 분석결과 해석 및 활용

(1) 분석결과 해석
- 순열변수중요도 : 특정 변수가 모형 성능에 어느 정도 영향을 주는지 계산
=> R 회귀분석에서 varImpPlot()
- 부분의존도Plot : 선택 변수를 고정하고 다른 변수 값을 이용 결과의 평균을 계산

(2) 시각화
- 공간시각화 : 등치지역도, 등치선도, 카토그램, 도트플롯맵, 버블플롯맵
- 관계시각화 : 산점도, 산점도행렬, 버블차트, 히스토그램
- 비교시각화 : 히스맵(색상의 농도), 스타차트, 체르노프페이스, 평행좌표그래프

728x90