[빅데이터분석기사 필기] 제2과목

2.1 Data 정제 및 전처리

Data 전처리 절차

Data 전처리는 분석 결과에 직접적인 영향을 미치는 핵심 과정이다. 진행 순서는 다음과 같다.

Data 정제 -> 결측값 처리 -> 이상값 처리 -> 분석 변수 처리.

[참조: 두음법칙 암기]* 전처리 순서: 정/결/이/변 (정제, 결측값, 이상값, 변수 처리).

결측값과 이상값 처리

결측값 유형:

완전 무작위 결측(MCAR): 다른 변수와 무관하게 랜덤으로 발생한 결측.

무작위 결측(MAR): 다른 변수와 연관이 있지만 그 자체가 결과에 영향을 미치지 않는 결측.

비무작위 결측(MNAR): 결과에 직접적인 영향을 미치는 결측.

이상값(Outlier) 검출: 분산, 가능도, 근접 이웃, 밀도, 사분위수(Box plot)를 활용한다. 통계적 방법으로는 딕슨의 Q-검정, 그럽스 T-검정, 마할라노비스 거리가 있다.

변수 선택 및 차원 축소

변수 선택(Variable Selection) 기법:

필터(Filter) 방법: 통계량을 이용해 불필요한 특징을 걸러낸다.

래퍼(Wrapper) 방법: 전진 선택법, 후진 제거법, 단계적 방법이 있다.

임베디드(Embedded) 방법: 모형 학습 과정에서 변수 선택을 수행하며 라쏘(LASSO)가 대표적이다.

차원 축소 기법:

PCA(Principal Component Analysis): 변수 간의 상관관계를 이용해 선형 연관성이 없는 저차원으로 축소한다.

LDA(Linear Discriminant Analysis): 클래스의 정보를 보호하면서 결정 경계를 만들어 데이터를 분류하고 차원을 줄인다.

[참조: 비전공자를 위한 개념 이해 - 차원의 저주]* 차원의 저주: Data의 변수(차원)가 과도하게 많아지면 모형의 성능이 오히려 하락하는 현상을 의미한다. 이를 해결하기 위해 PCA나 LDA 같은 차원 축소 기법을 적용한다.

클래스 불균형 해결

학습 Data의 Label 분포가 불균형할 때 사용하는 기법이다.

과소표집(Under-sampling): 정상 Data를 줄여 유익한 Data만 남긴다. (예: CNN, OSS, ENN, 랜덤과소표집) .

과대표집(Over-sampling): 소수 Data를 복제하거나 생성한다. (예: SMOTE, ADASYN, 랜덤과대표집) .

2.2 EDA(Exploratory Data Analysis) 및 공간/텍스트 분석

EDA(Exploratory Data Analysis)의 이해

EDA(Exploratory Data Analysis)는 Data를 이해하고 관계를 찾기 위해 분포 등을 시각화하고 분석하는 과정이다.

4대 특징: 저항성, 잔차 해석, 자료 재표현, 시각화.

기초 통계량 및 분포 파악

상관관계:

피어슨 상관계수: 모수 검정, 연속형 변수에 사용된다. 공식은 다음과 같다. $r_{xy}=\frac{\sum(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum(x_{i}-\overline{x})^{2}}$

스피어만 상관계수: 비모수 검정, 이산/순서형 변수에 사용된다.

분포의 형태:

왜도(Skewness): 비대칭성을 나타내며 0보다 크면 왼쪽으로 치우쳐 있다.

첨도(Kurtosis): 중심에 몰린 정도를 나타내며 3보다 크면 표준 정규분포보다 더 좁게 분포되어 있다.

시각적 Data 탐색

Box plot: 통계량(최솟값, Q1, 중앙값, Q3, 최댓값)을 바탕으로 그린 그래프이다. 사분위수 범위의 1.5배를 넘는 값을 이상치로 식별한다.

공간 Data 시각화:

코로플레스(등치지역도): Data 수치에 따라 지정한 색상 스케일로 영역을 색칠한다.

카토그램: Data 값에 따라 지도의 면적 자체를 왜곡시켜 표현한다.

비정형 Data 분석

텍스트 마이닝: 비정형 텍스트에 자연어 처리 기술을 적용해 인사이트를 도출한다. 코퍼스(Corpus), 토큰화, 불용어 제거, 어간 추출 등의 절차를 거친다.

SNA(Social Network Analysis): 중심성, 밀도, 집중도, 연결정도, 포괄성 등의 지표를 활용해 구성원 간의 관계망을 분석한다.

2.3 통계 기법 및 가설 검정

표본 추출 및 추정

전수조사가 현실적으로 어려울 때 Data의 일부인 표본을 추출하여 모집단의 모수를 추정한다.

확률 표본 추출: 단순 무작위, 체계, 층화(층으로 분할), 군집(인접한 그룹 추출) 표본 추출.

비확률 표본 추출: 편의, 판단, 누적, 할당 표본 추출.

[참조: 두음법칙 암기]* 바람직한 추정량의 4가지 조건: 불/효/일/충 (불편성, 효율성, 일치성, 충분성).

확률 분포의 종류

연속형 확률분포: 정규분포, 균등분포, 감마분포, 베타분포, 지수분포, T-분포, F-분포, 카이제곱분포.

이산형 확률분포: 베르누이분포, 이항분포, 다항분포, 초기하분포, 포아송분포.

가설 검정의 이해

가설검정은 표본에서 얻은 정보를 통해 모집단에 대한 주장(가설)이 옳은지 판단하는 과정이다.

제1종 오류: 귀무가설이 참일 때 이를 기각하는 오류 (유의수준과 직결).

제2종 오류: 대립가설이 참일 때 귀무가설을 채택하는 오류.

검정력: 대립가설이 참일 때 귀무가설을 정상적으로 기각할 확률.

주요 검정 기법

독립표본 t-검정: 서로 관계없는 두 그룹 간의 평균 차이를 검정한다.

대응표본 t-검정: 동일한 대상의 전/후 두 관측치를 비교할 때 사용한다.

비모수 검정 (모집단 분포 가정이 어려울 때):

대응 표본: 윌콕슨의 부호순위검정.

두 독립 표본: 윌콕슨의 순위합 검정.

세 집단 이상(분산분석 대체): 크루스칼-왈리스 검정.

[참조: 비전공자를 위한 개념 이해 - 귀무가설과 대립가설]* 귀무가설(Null Hypothesis, H0): 일반적인 통념이나 차이가 없다는 기본 가정이다. * 대립가설(Alternative Hypothesis, H1): 분석가가 Data를 통해 입증하고 싶은 새로운 주장이나 차이이다. 가설 검정의 목표는 귀무가설을 기각하여 대립가설을 채택하는 것이다.