[빅데이터분석기사 필기] 제3과목
공부

[빅데이터분석기사 필기] 제3과목

작성일: 2026년 03월 23일·...

3.1 분석 모형 설계

분석 모형의 종류와 학습 방법

  • 통계 기반 모형에는 기술통계, T-test, 카이제곱검정, 분산분석 등이 있다.
  • 데이터 마이닝(머신러닝) 모형에는 분류, 추정, 예측, 연관분석, 군집분석 등이 포함된다.
  • 지도학습은 Label이 있는 데이터를 통해 학습하며 로지스틱 회귀, 인공신경망, 의사결정나무, SVM 등이 있다.
  • 비지도학습은 Label이 없는 데이터를 통해 학습하며 군집분석(K-means, DBSCAN), 차원축소(PCA, LDA), 연관분석 등이 해당한다.
  • 모델 선택 및 구축 절차

  • 그리드 서치는 모든 하이퍼파라미터 조합을 이용해 최적의 값을 찾는 방법이다.
  • 랜덤 서치는 하이퍼파라미터 값의 범위를 지정하고 그 안에서 랜덤 샘플링을 통해 조합을 생성하는 방법이다.
  • 폭포수 모델은 요구사항 분석부터 유지보수까지 순차적으로 진행한다.
  • 프로토타이핑 모델은 요구사항이 모호할 때 점진적으로 모형을 개발하는 방법이다.
  • 나선형 모델은 위험을 최소화하기 위해 개발 단계를 반복적으로 수행하며 대규모 프로젝트에 적합하다.
  • [참조: 두음법칙 암기 - 나선형 모델 수행 단계]* 목/위/개/고: 목표설정, 위험분석, 개발과 검증, 고객평가(다음단계 수립).

    데이터 분할 및 교차검증

  • 데이터는 학습 데이터(Train), 검증 데이터(Validation), 테스트 데이터(Test)로 분할된다.
  • 학습 데이터는 모형을 학습하는 데 사용되고, 검증 데이터는 과적합 확인 및 하이퍼파라미터 설정에 쓰이며, 테스트 데이터는 최종 성능을 판단하는 데 사용된다.
  • 과적합(Overfitting)은 모형이 학습 데이터에 과도하게 맞춰져 새로운 데이터에 대한 예측력이 떨어지는 현상이다.
  • 과적합 해결을 위해 Train 데이터를 늘리거나 라쏘/릿지 페널티를 부여하고 모수의 수를 줄인다.
  • K-폴드 교차검증은 데이터를 K개로 나누어 K-1개를 학습용, 1개를 검증용으로 번갈아 사용하는 방법이다.
  • 부트스트랩은 중복을 허용해서 표본 추출을 진행하는 방법이다.

  • 3.2 분석기법 적용 1: 회귀와 분류 알고리즘

    회귀분석과 로지스틱 회귀 *

    회귀분석은 독립변수와 종속변수 간의 선형적인 관계를 도출하는 방법이다.

  • 회귀모형의 적합성은 분산분석표(SST, SSR, SSE)와 F-통계량을 이용해 평가하며, 설명력은 결정계수($R^2$)로 판단한다.
  • 로지스틱 회귀분석은 종속변수가 범주형(주로 0과 1)일 때 사용하며 시그모이드 함수를 통해 확률 값을 계산한다.
  • 오즈(Odds)는 사건이 발생할 확률과 발생하지 않을 확률의 비이며 수식은 다음과 같다.
  • $$odds=\frac{p}{1-p}$$

    [참조: 두음법칙 암기 - 선형 회귀분석의 5가지 기본 가정]* 선/독/등/정/비: 선형성, 독립성, 등분산성, 정규성, 비상관성.

    의사결정나무 및 인공신경망

  • 의사결정나무에서 종속변수가 이산형일 때는 카이제곱 통계량, 지니 지수, 엔트로피 지수를 분리 기준으로 사용한다.
  • 종속변수가 연속형일 때는 ANOVA F-통계량과 분산감소량을 분리 기준으로 사용한다.
  • 인공신경망의 활성함수에는 Step, Sigmoid, ReLU, Softmax 등이 있다.
  • 역전파 알고리즘은 출력층의 오차를 입력층으로 역전파하여 오차가 최소가 되도록 가중치를 갱신한다.
  • 서포트 벡터 머신 (SVM)

  • SVM은 결정 경계와 서포트 벡터 사이의 거리인 마진(Margin)을 최대화하는 방향으로 학습하는 분류/회귀 알고리즘이다.
  • 소프트 마진은 약간의 오분류를 허용하는 유연한 방식이다.
  • 비선형 데이터는 커널 트릭을 이용하여 저차원 데이터를 고차원으로 매핑하여 분류한다.

  • 3.3 분석기법 적용 2: 군집, 연관성, 다변량, 시계열

    연관성 분석 및 군집 분석 *

    연관성 분석 지표에는 지지도(Support), 신뢰도(Confidence), 향상도(Lift)가 있다.

  • 군집분석 시 연속형 변수에는 유클리드 거리나 맨해튼 거리를, 범주형 변수에는 단순 일치 거리 등을 사용한다.
  • 계층적 군집의 군집 간 거리 측정 방식에는 단일, 완전, 평균, 중심, 와드 연결법이 있다.
  • 비계층적 군집에는 K-means, DBSCAN(밀도 기반), 가우시안 혼합 모델(모수 추정)이 있다.
  • [참조: 비전공자를 위한 개념 이해 - 카이제곱 검정의 3가지 유형]* 적합도 검정: 단일 변수의 범주 분포가 예상과 일치하는지 확인한다. * 독립성 검정: 두 변수가 서로 영향을 주는지(독립인지) 확인한다. * 동질성 검정: 다른 모집단에서 추출한 표본들이 동일한 분포를 가지는지 확인한다.

    통계 검정 및 다변량 분석

  • 단일표본 t-test는 한 집단의 평균을 모집단과 비교하고, 대응표본 t-test는 동일 집단의 처치 전후를 비교하며, 독립표본 t-test는 독립된 두 집단의 평균을 비교한다.
  • 다변량분산분석(MANOVA)은 종속변수가 2개 이상일 때 집단 간 평균 벡터의 차이를 비교한다.
  • 요인분석은 변수 간 상호연관성을 바탕으로 적은 수의 요인으로 차원을 압축하는 기법이다.
  • 다차원척도법(MDS)은 개체 간 유사성을 저차원 공간의 점으로 시각화하며 적합도 척도로 Stress를 사용한다.
  • 시계열 분석 *

    시계열 데이터의 정상성 조건은 평균, 분산, 공분산이 시간에 따라 일정해야 한다는 것이다.

  • 최근 데이터에 더 큰 가중치를 부여하는 예측 방법은 지수평활법이다.
  • 시계열 모형에는 AR(자기회귀), MA(이동평균), ARIMA(자기회귀누적이동평균)가 있다.

  • 3.4 분석기법 적용 3: 비정형 분석과 앙상블

    베이즈 정리와 딥러닝

  • 베이즈 정리는 사전확률과 우도확률을 통해 사후확률을 추정하는 기법이다.
  • 딥러닝은 기존 인공신경망의 과적합과 기울기 소실 문제를 정규화, 드롭아웃, 배치 정규화, 활성함수 변경(ReLU) 등을 통해 극복했다.
  • CNN은 합성곱 과정(필터 스캔)과 풀링 과정(사이즈 축소)을 거쳐 이미지를 처리한다.
  • RNN은 현재 결과와 이전 결과 사이에 연관성이 있다는 가정을 기반으로 시계열이나 자연어를 처리한다.
  • 텍스트 마이닝 및 앙상블 기법 *

    텍스트 마이닝의 전처리 단계는 클렌징, 토큰화, 불용어 제거, 어간 및 표제어 추출로 이루어진다.

  • 앙상블 분석 중 배깅(Bagging)은 부트스트랩 추출을 통해 여러 모델의 결과를 집계하는 방법이다.
  • 부스팅(Boosting)은 예측력이 약한 모형을 순차적으로 학습하여 강한 모형으로 만드는 기법이다.
  • 랜덤포레스트는 배깅 방식에 변수 랜덤 선택 과정을 추가한 모델이다.
  • 비모수 통계

  • 비모수 통계는 모집단의 분포를 가정하지 않고 가설을 검정한다.
  • 부호검정은 중앙값을 기준으로 검정하며, 만-위트니 검정(윌콕슨 순위합 검정)은 표본의 순위를 매겨 두 집단의 중심 위치를 비교한다.