[빅데이터분석기사 필기] 제2과목
공부

[빅데이터분석기사 필기] 제2과목

작성일: 2026년 03월 23일·...

2.1 Data 정제 및 전처리

Data 전처리 절차

Data 전처리는 분석 결과에 직접적인 영향을 미치는 핵심 과정이다. 진행 순서는 다음과 같다.

  • Data 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리.
  • [참조: 두음법칙 암기]* 전처리 순서: 정/결/이/변 (정제, 결측값, 이상값, 변수 처리).

    결측값과 이상값 처리

  • 결측값 유형:
  • 완전 무작위 결측(MCAR): 다른 변수와 무관하게 랜덤으로 발생한 결측.
  • 무작위 결측(MAR): 다른 변수와 연관이 있지만 그 자체가 결과에 영향을 미치지 않는 결측.
  • 비무작위 결측(MNAR): 결과에 직접적인 영향을 미치는 결측.
  • 이상값(Outlier) 검출: 분산, 가능도, 근접 이웃, 밀도, 사분위수(Box plot)를 활용한다. 통계적 방법으로는 딕슨의 Q-검정, 그럽스 T-검정, 마할라노비스 거리가 있다.
  • 변수 선택 및 차원 축소

  • 변수 선택(Variable Selection) 기법:
  • 필터(Filter) 방법: 통계량을 이용해 불필요한 특징을 걸러낸다.
  • 래퍼(Wrapper) 방법: 전진 선택법, 후진 제거법, 단계적 방법이 있다.
  • 임베디드(Embedded) 방법: 모형 학습 과정에서 변수 선택을 수행하며 라쏘(LASSO)가 대표적이다.
  • 차원 축소 기법:
  • PCA(Principal Component Analysis): 변수 간의 상관관계를 이용해 선형 연관성이 없는 저차원으로 축소한다.
  • LDA(Linear Discriminant Analysis): 클래스의 정보를 보호하면서 결정 경계를 만들어 데이터를 분류하고 차원을 줄인다.
  • [참조: 비전공자를 위한 개념 이해 - 차원의 저주]* 차원의 저주: Data의 변수(차원)가 과도하게 많아지면 모형의 성능이 오히려 하락하는 현상을 의미한다. 이를 해결하기 위해 PCA나 LDA 같은 차원 축소 기법을 적용한다.

    클래스 불균형 해결

    학습 Data의 Label 분포가 불균형할 때 사용하는 기법이다.

  • 과소표집(Under-sampling): 정상 Data를 줄여 유익한 Data만 남긴다. (예: CNN, OSS, ENN, 랜덤과소표집) .
  • 과대표집(Over-sampling): 소수 Data를 복제하거나 생성한다. (예: SMOTE, ADASYN, 랜덤과대표집) .

  • 2.2 EDA(Exploratory Data Analysis) 및 공간/텍스트 분석

    EDA(Exploratory Data Analysis)의 이해

    EDA(Exploratory Data Analysis)는 Data를 이해하고 관계를 찾기 위해 분포 등을 시각화하고 분석하는 과정이다.

  • 4대 특징: 저항성, 잔차 해석, 자료 재표현, 시각화.
  • 기초 통계량 및 분포 파악

  • 상관관계:
  • 피어슨 상관계수: 모수 검정, 연속형 변수에 사용된다. 공식은 다음과 같다. $r_{xy}=\frac{\sum(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum(x_{i}-\overline{x})^{2}}$
  • 스피어만 상관계수: 비모수 검정, 이산/순서형 변수에 사용된다.
  • 분포의 형태:
  • 왜도(Skewness): 비대칭성을 나타내며 0보다 크면 왼쪽으로 치우쳐 있다.
  • 첨도(Kurtosis): 중심에 몰린 정도를 나타내며 3보다 크면 표준 정규분포보다 더 좁게 분포되어 있다.
  • 시각적 Data 탐색

  • Box plot: 통계량(최솟값, Q1, 중앙값, Q3, 최댓값)을 바탕으로 그린 그래프이다. 사분위수 범위의 1.5배를 넘는 값을 이상치로 식별한다.
  • 공간 Data 시각화:
  • 코로플레스(등치지역도): Data 수치에 따라 지정한 색상 스케일로 영역을 색칠한다.
  • 카토그램: Data 값에 따라 지도의 면적 자체를 왜곡시켜 표현한다.
  • 비정형 Data 분석

  • 텍스트 마이닝: 비정형 텍스트에 자연어 처리 기술을 적용해 인사이트를 도출한다. 코퍼스(Corpus), 토큰화, 불용어 제거, 어간 추출 등의 절차를 거친다.
  • SNA(Social Network Analysis): 중심성, 밀도, 집중도, 연결정도, 포괄성 등의 지표를 활용해 구성원 간의 관계망을 분석한다.

  • 2.3 통계 기법 및 가설 검정

    표본 추출 및 추정

    전수조사가 현실적으로 어려울 때 Data의 일부인 표본을 추출하여 모집단의 모수를 추정한다.

  • 확률 표본 추출: 단순 무작위, 체계, 층화(층으로 분할), 군집(인접한 그룹 추출) 표본 추출.
  • 비확률 표본 추출: 편의, 판단, 누적, 할당 표본 추출.
  • [참조: 두음법칙 암기]* 바람직한 추정량의 4가지 조건: 불/효/일/충 (불편성, 효율성, 일치성, 충분성).

    확률 분포의 종류

  • 연속형 확률분포: 정규분포, 균등분포, 감마분포, 베타분포, 지수분포, T-분포, F-분포, 카이제곱분포.
  • 이산형 확률분포: 베르누이분포, 이항분포, 다항분포, 초기하분포, 포아송분포.
  • 가설 검정의 이해

    가설검정은 표본에서 얻은 정보를 통해 모집단에 대한 주장(가설)이 옳은지 판단하는 과정이다.

  • 제1종 오류: 귀무가설이 참일 때 이를 기각하는 오류 (유의수준과 직결).
  • 제2종 오류: 대립가설이 참일 때 귀무가설을 채택하는 오류.
  • 검정력: 대립가설이 참일 때 귀무가설을 정상적으로 기각할 확률.
  • 주요 검정 기법

  • 독립표본 t-검정: 서로 관계없는 두 그룹 간의 평균 차이를 검정한다.
  • 대응표본 t-검정: 동일한 대상의 전/후 두 관측치를 비교할 때 사용한다.
  • 비모수 검정 (모집단 분포 가정이 어려울 때):
  • 대응 표본: 윌콕슨의 부호순위검정.
  • 두 독립 표본: 윌콕슨의 순위합 검정.
  • 세 집단 이상(분산분석 대체): 크루스칼-왈리스 검정.
  • [참조: 비전공자를 위한 개념 이해 - 귀무가설과 대립가설]* 귀무가설(Null Hypothesis, H0): 일반적인 통념이나 차이가 없다는 기본 가정이다. * 대립가설(Alternative Hypothesis, H1): 분석가가 Data를 통해 입증하고 싶은 새로운 주장이나 차이이다. 가설 검정의 목표는 귀무가설을 기각하여 대립가설을 채택하는 것이다.