[빅데이터분석기사 필기] 제4과목

4.1 분석 Model 평가 및 개선

이상적인 Model은 낮은 편향과 낮은 분산으로 설정되어야 합니다. 학습된 분류분석 Model의 성능을 검증하는 과정을 위해 다양한 평가지표가 활용됩니다.

분류분석 평가지표

이진 분류에서 Model이 예측한 값과 실제 값의 조합을 교차표 형태로 정리한 행렬을 혼동행렬이라고 부릅니다.

TP: 예측 양성, 실제 양성.

FP: 예측 양성, 실제 음성.

TN: 예측 음성, 실제 음성.

FN: 예측 음성, 실제 양성.

정확도: $\frac{TP+TN}{TP+TN+FP+FN}$.

정밀도: $\frac{TP}{TP+FP}$ (예측된 양성 중 실제 양성의 비율).

재현율 (민감도): $\frac{TP}{TP+FN}$ (실제 양성 중 올바르게 예측한 비율).

특이도: $\frac{TN}{TN+FP}$.

거짓 긍정률 (FPR): $\frac{FP}{TN+FP}$.

F1-Score: $\frac{2 \times Precision \times Recall}{Precision + Recall}$.

[참조: 비전공생을 위한 개념 이해]
혼동행렬 암기 팁: 첫 번째 글자(T/F)는 '예측이 맞았는가/틀렸는가'를 의미하고, 두 번째 글자(P/N)는 'Model이 무엇으로 예측했는가'를 뜻합니다. * ROC(Receiver Operating Characteristic) 곡선: 임계값을 다양하게 조절하여 분류 Model의 성능을 비교하는 그래프로, 민감도와 특이도의 상충(Trade-off) 관계를 시각화합니다.

회귀분석 및 군집분석 평가지표

군집분석: 자카드 계수, 혼동행렬, ROC(Receiver Operating Characteristic) 곡선 등이 사용됩니다.

회귀분석: 평균절대오차(MAE), 평균제곱오차(MSE), 결정계수($R^2$) 등이 활용됩니다.

$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}$.

수정된 결정계수 = $1-\frac{n-1}{n-p-1}(1-R^{2})$.

CV(Cross Validation) 기법

단순히 한 번 분할하는 것을 넘어, Data를 나누고 학습하는 과정을 여러 차례 반복해 일반화 성능을 평가합니다.

K-폴드 교차검증: Data를 k개의 폴드 파티션으로 분할하여 학습과 검증을 반복합니다.

홀드아웃: Data를 랜덤으로 추출해 학습용과 Test용으로 나눕니다.

리브-원-아웃 교차검증: 한 개의 관측치만 검증용으로 사용하고 나머지는 모두 학습에 투입합니다.

통계적 가설 검정과 Parameter 최적화

모수검정과 비모수검정: 모수검정은 가정된 분포의 Parameter에 대한 검정으로 검정력이 강하며, 비모수검정은 분포 형태에 대한 검정으로 검정력이 약한 편입니다.

정규성 검정: 샤피로 윌크 검정, 콜모고로프 스미르노프 검정, Q-Q 플롯(시각적 확인)이 있습니다.

최적화 알고리즘:

경사하강법: 기울기를 감소하는 방향으로 Parameter를 조정합니다.

SGD(Stochastic Gradient Descent): 무작위 샘플링된 단일 샘플로 Parameter를 업데이트합니다.

Adam: 오래된 기울기 영향을 지수적으로 줄이는 RMSProp에 모멘텀을 더한 방식으로 최근 가장 널리 사용됩니다.

과적합(Overfitting)과 앙상블 기법

학습 Data가 부족하거나 Model이 지나치게 복잡할 때 과적합이 발생합니다. 이를 방지하기 위해 학습 Data를 늘리고 정규화나 피처 축소를 진행합니다. 단일 예측 Model의 한계를 극복하기 위해 앙상블 기법을 활용합니다.

보팅(Voting): 서로 다른 알고리즘 결과를 투표로 결정하며, 확률을 평균 내는 소프트 보팅과 다수결 원칙의 하드 보팅이 있습니다.

배깅(Bagging): 부트스트랩 Data를 병렬 학습해 결합합니다. 대표적으로 의사결정 트리를 개별 Model로 사용하는 랜덤포레스트가 있습니다.

부스팅(Boosting): 약한 분석 Model을 순차적으로 학습하며 오답에 가중치를 부여해 강한 Model로 만듭니다.

4.2 분석 결과 해석 및 활용

Data 해석 및 비즈니스 기여도

임베딩: 기계가 이해할 수 있도록 숫자 형태인 Vector로 변환하는 기법입니다.

토폴로지 Data 분석: 개체를 분리하지 않고 클러스터, 루트 등의 기하학적 특징을 보존하여 연구하는 분야입니다.

기여도 평가: 단순한 성과 향상을 넘어 재무적 지표, IT 지표, 마케팅 지표 등 다양한 관점에서 비즈니스 기여도를 평가해야 합니다.

시각화 기법

시각화 프로세스는 '구조화 $\rightarrow$ 시각화 $\rightarrow$ 시각 표현'의 3단계로 진행됩니다.

시간 시각화: 막대그래프, 산점도, 선 그래프, 계단식 그래프.

공간 시각화:

등치지역도: 지리적 단위를 기준으로 Data의 의미를 색상으로 구분합니다.

카토그램: 특정 성질의 분포에 따라 지도 면적 자체를 왜곡하여 나타냅니다.

분포 시각화: 파이 차트, 도넛 차트, 트리맵(사각형의 크기로 비율 및 하위분류 표현).

비교 시각화:

히트맵: 표 형태로 행렬 방향 변수를 배치하고 색상의 채도 차이로 값을 표현합니다.

평행 좌표계: 여러 개의 축을 병렬로 배열하여 다변량 Data를 선으로 연결해 비교합니다.

인포그래픽: 복잡한 Data를 다이어그램 등으로 간소화해 SNS 등을 통해 직관적이고 빠르게 전달하는 방식입니다.

[참조: 두음법칙 암기]* 시각화 프로세스: 구/시/표 (구조화, 시각화, 시각 표현 단계).

분석 결과 활용 및 운영

다양한 부서들 간의 업무 조율과 협조를 이끌어내는 관리자를 '빅데이터 큐레이션'이라고 부릅니다. 분석 결과를 비즈니스에 전개할 때는 Model을 개발 및 운영 단계로 나누고, 실질적인 서비스 영역을 도출하는 시나리오를 작성하여 시스템에 적용합니다.