3.1 분석 모형 설계
분석 모형의 종류와 학습 방법
통계 기반 모형에는 기술통계, T-test, 카이제곱검정, 분산분석 등이 있다.데이터 마이닝(머신러닝) 모형에는 분류, 추정, 예측, 연관분석, 군집분석 등이 포함된다.지도학습은 Label이 있는 데이터를 통해 학습하며 로지스틱 회귀, 인공신경망, 의사결정나무, SVM 등이 있다.비지도학습은 Label이 없는 데이터를 통해 학습하며 군집분석(K-means, DBSCAN), 차원축소(PCA, LDA), 연관분석 등이 해당한다.모델 선택 및 구축 절차
그리드 서치는 모든 하이퍼파라미터 조합을 이용해 최적의 값을 찾는 방법이다.랜덤 서치는 하이퍼파라미터 값의 범위를 지정하고 그 안에서 랜덤 샘플링을 통해 조합을 생성하는 방법이다.폭포수 모델은 요구사항 분석부터 유지보수까지 순차적으로 진행한다.프로토타이핑 모델은 요구사항이 모호할 때 점진적으로 모형을 개발하는 방법이다.나선형 모델은 위험을 최소화하기 위해 개발 단계를 반복적으로 수행하며 대규모 프로젝트에 적합하다.[참조: 두음법칙 암기 - 나선형 모델 수행 단계]* 목/위/개/고: 목표설정, 위험분석, 개발과 검증, 고객평가(다음단계 수립).
데이터 분할 및 교차검증
데이터는 학습 데이터(Train), 검증 데이터(Validation), 테스트 데이터(Test)로 분할된다.학습 데이터는 모형을 학습하는 데 사용되고, 검증 데이터는 과적합 확인 및 하이퍼파라미터 설정에 쓰이며, 테스트 데이터는 최종 성능을 판단하는 데 사용된다.과적합(Overfitting)은 모형이 학습 데이터에 과도하게 맞춰져 새로운 데이터에 대한 예측력이 떨어지는 현상이다.과적합 해결을 위해 Train 데이터를 늘리거나 라쏘/릿지 페널티를 부여하고 모수의 수를 줄인다.K-폴드 교차검증은 데이터를 K개로 나누어 K-1개를 학습용, 1개를 검증용으로 번갈아 사용하는 방법이다.부트스트랩은 중복을 허용해서 표본 추출을 진행하는 방법이다.
3.2 분석기법 적용 1: 회귀와 분류 알고리즘
회귀분석과 로지스틱 회귀 *
회귀분석은 독립변수와 종속변수 간의 선형적인 관계를 도출하는 방법이다.
회귀모형의 적합성은 분산분석표(SST, SSR, SSE)와 F-통계량을 이용해 평가하며, 설명력은 결정계수($R^2$)로 판단한다.로지스틱 회귀분석은 종속변수가 범주형(주로 0과 1)일 때 사용하며 시그모이드 함수를 통해 확률 값을 계산한다.오즈(Odds)는 사건이 발생할 확률과 발생하지 않을 확률의 비이며 수식은 다음과 같다. [참조: 두음법칙 암기 - 선형 회귀분석의 5가지 기본 가정]* 선/독/등/정/비: 선형성, 독립성, 등분산성, 정규성, 비상관성.
의사결정나무 및 인공신경망
의사결정나무에서 종속변수가 이산형일 때는 카이제곱 통계량, 지니 지수, 엔트로피 지수를 분리 기준으로 사용한다.종속변수가 연속형일 때는 ANOVA F-통계량과 분산감소량을 분리 기준으로 사용한다.인공신경망의 활성함수에는 Step, Sigmoid, ReLU, Softmax 등이 있다.역전파 알고리즘은 출력층의 오차를 입력층으로 역전파하여 오차가 최소가 되도록 가중치를 갱신한다.서포트 벡터 머신 (SVM)
SVM은 결정 경계와 서포트 벡터 사이의 거리인 마진(Margin)을 최대화하는 방향으로 학습하는 분류/회귀 알고리즘이다.소프트 마진은 약간의 오분류를 허용하는 유연한 방식이다.비선형 데이터는 커널 트릭을 이용하여 저차원 데이터를 고차원으로 매핑하여 분류한다.
3.3 분석기법 적용 2: 군집, 연관성, 다변량, 시계열
연관성 분석 및 군집 분석 *
연관성 분석 지표에는 지지도(Support), 신뢰도(Confidence), 향상도(Lift)가 있다.
군집분석 시 연속형 변수에는 유클리드 거리나 맨해튼 거리를, 범주형 변수에는 단순 일치 거리 등을 사용한다.계층적 군집의 군집 간 거리 측정 방식에는 단일, 완전, 평균, 중심, 와드 연결법이 있다.비계층적 군집에는 K-means, DBSCAN(밀도 기반), 가우시안 혼합 모델(모수 추정)이 있다.[참조: 비전공자를 위한 개념 이해 - 카이제곱 검정의 3가지 유형]* 적합도 검정: 단일 변수의 범주 분포가 예상과 일치하는지 확인한다.
* 독립성 검정: 두 변수가 서로 영향을 주는지(독립인지) 확인한다.
* 동질성 검정: 다른 모집단에서 추출한 표본들이 동일한 분포를 가지는지 확인한다.
통계 검정 및 다변량 분석
단일표본 t-test는 한 집단의 평균을 모집단과 비교하고, 대응표본 t-test는 동일 집단의 처치 전후를 비교하며, 독립표본 t-test는 독립된 두 집단의 평균을 비교한다.다변량분산분석(MANOVA)은 종속변수가 2개 이상일 때 집단 간 평균 벡터의 차이를 비교한다.요인분석은 변수 간 상호연관성을 바탕으로 적은 수의 요인으로 차원을 압축하는 기법이다.다차원척도법(MDS)은 개체 간 유사성을 저차원 공간의 점으로 시각화하며 적합도 척도로 Stress를 사용한다.시계열 분석 *
시계열 데이터의 정상성 조건은 평균, 분산, 공분산이 시간에 따라 일정해야 한다는 것이다.
최근 데이터에 더 큰 가중치를 부여하는 예측 방법은 지수평활법이다.시계열 모형에는 AR(자기회귀), MA(이동평균), ARIMA(자기회귀누적이동평균)가 있다.
3.4 분석기법 적용 3: 비정형 분석과 앙상블
베이즈 정리와 딥러닝
베이즈 정리는 사전확률과 우도확률을 통해 사후확률을 추정하는 기법이다.딥러닝은 기존 인공신경망의 과적합과 기울기 소실 문제를 정규화, 드롭아웃, 배치 정규화, 활성함수 변경(ReLU) 등을 통해 극복했다.CNN은 합성곱 과정(필터 스캔)과 풀링 과정(사이즈 축소)을 거쳐 이미지를 처리한다.RNN은 현재 결과와 이전 결과 사이에 연관성이 있다는 가정을 기반으로 시계열이나 자연어를 처리한다.텍스트 마이닝 및 앙상블 기법 *
텍스트 마이닝의 전처리 단계는 클렌징, 토큰화, 불용어 제거, 어간 및 표제어 추출로 이루어진다.
앙상블 분석 중 배깅(Bagging)은 부트스트랩 추출을 통해 여러 모델의 결과를 집계하는 방법이다.부스팅(Boosting)은 예측력이 약한 모형을 순차적으로 학습하여 강한 모형으로 만드는 기법이다.랜덤포레스트는 배깅 방식에 변수 랜덤 선택 과정을 추가한 모델이다.비모수 통계
비모수 통계는 모집단의 분포를 가정하지 않고 가설을 검정한다.부호검정은 중앙값을 기준으로 검정하며, 만-위트니 검정(윌콕슨 순위합 검정)은 표본의 순위를 매겨 두 집단의 중심 위치를 비교한다.