[빅데이터분석기사 필기] 제1과목
공부

[빅데이터분석기사 필기] 제1과목

작성일: 2026년 03월 23일·...

1.1 빅데이터의 이해

Data와 지식의 개념

  • Data란 이론을 세우는 데 기초가 되는 자료 혹은 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 등의 형태로 되어 있는 자료를 말한다.
  • Data가 의미를 담고 있으면 정보라고 부르며, 의미를 담고 있지 않으면 단순한 자료로 본다.
  • 정형 Data는 수치로 표현될 수 있는 Data이며 영화 평점, 시험 성적 등이 해당한다.
  • 비정형 Data는 수치로 표현될 수 없는 Data이며 영화 감상평 등이 해당한다.
  • 암묵지는 학습과 경험을 통해 개인이 습득했지만 겉으로 드러나지 않는 지식이다.
  • 형식지는 암묵지가 문서로 정리되어 여러 사람이 공유할 수 있는 지식이다.
  • Database와 빅데이터

  • Database는 전자적, 체계적으로 관리되어 있는 Data들의 집합이다.
  • DBMS (Database Management System)는 사용자가 Database를 쉽게 구축 또는 관리할 수 있게 하는 소프트웨어이다.
  • Database에 저장된 Data는 동일한 Data가 중복되지 않게 저장되며 컴퓨터에 저장되어 여러 사용자가 사용할 수 있고 수정이 가능하다.
  • 빅데이터란 막대한 양의 정형 및 비정형 Data들을 의미하며 양적뿐만 아니라 질적으로도 복잡한 Data이다.
  • 빅데이터의 기본 특징 3V는 크기, 다양성, 속도이다.
  • 빅데이터의 추가적인 특징 2V는 가치와 정확성이다.
  • [참조: 두음법칙 암기] * DIKW 피라미드: 데/정/식/헤 (Data, 정보, 지식, 지혜). * 빅데이터 3V: 크/다/속 (크기, 다양성, 속도).

    빅데이터의 가치와 통제

  • 빅데이터는 경제적 자산을 창출하고 불확실성을 제거하며 스마트한 경쟁력을 제공하고 타 분야 융합을 통한 새로운 가치를 창출한다.
  • Data 활용 방식과 가치 창출 방식을 예측하기 어렵고 분석 기술이 계속 발전하기 때문에 빅데이터의 가치 판단은 어렵다.
  • 빅데이터 활용 시 사생활 침해, 책임 원칙 훼손, Data 오용의 단점이 발생할 수 있다.
  • 사생활 침해는 개인정보 동의보다 사용자의 책임 원칙으로 해결해야 한다.
  • Data 오용은 알고리즘에 대한 접근성을 보장하여 해결할 수 있다.
  • 분석 역량 및 조직 구성

  • 가트너의 분석 가치 에스컬레이터는 묘사분석, 진단분석, 예측분석, 처방분석으로 나뉜다.
  • Data 사이언스는 Analytics, IT, 비즈니스 분석으로 구성된다.
  • Data 사이언티스트는 이론적 지식인 하드스킬과 창의적 사고, 커뮤니케이션 등의 소프트스킬을 모두 갖춰야 한다.
  • 기업의 분석 조직 평가는 도입, 활용, 확산, 최적화 단계의 성숙도로 나뉜다.
  • 인공지능 모형 중 머신러닝은 학습 Data를 바탕으로 새로운 Data를 예측하는 모형이다.
  • 딥러닝은 인공 신경망을 사용하는 머신러닝의 한 종류이다.
  • [참조: 두음법칙 암기] * 가트너 분석 가치: 묘/진/예/지 (묘사, 진단, 예측, 처방(지시)). * 조직 성숙도 단계: 도/활/확/최 (도입, 활용, 확산, 최적화).

    마이데이터 및 개인정보보호

  • 마이데이터는 개인이 자신의 개인정보를 알고 제어하며 이익 공유를 주장하는 운동이다.
  • 개인정보 처리자는 민감한 정보 등 사생활을 침해할 우려가 있는 정보는 처리를 금지해야 한다.
  • 채용 지원서에 주민등록번호 기재를 요구하여 Data를 수집할 수 없다.
  • Data 수집 시 개인정보 자기 결정권에 따라 정보 주체는 동의 범위 선택, 열람, 처리 정지 및 파기를 요구할 권리가 있다.
  • 비식별화 기법에는 가명처리, 총계처리, Data 삭제, Data 범주화, Data 마스킹이 있다.
  • [참조: 비전공자를 위한 개념 이해 - 비식별화 모델] * k-익명성: 주어진 Data 집합에서 같은 값이 적어도 k개 이상 존재하게 하여 특정 개인을 추론하지 못하게 하는 모형이다. * l-다양성: k-익명성을 보완하여, 비식별되는 레코드들이 적어도 l개의 서로 다른 민감한 정보를 가지도록 하는 모델이다. * t-근접성: 동질 집합에서 특정 정보의 분포와 전체 Data 집합의 정보 분포가 t 이하의 차이를 보이도록 하는 모델이다. * m-유일성: 원본 Data와 동일한 속성 값 조합이 비식별 결과에 최소 m개 이상 존재하게 하여 재식별 위험을 낮춘 모델이다.

    1.2 데이터 분석 계획

    분석 방법론 및 접근법

  • 최적화 분석은 분석 대상과 분석 방법을 모두 알고 있을 때 사용한다.
  • 솔루션 분석은 분석 대상을 알고 있으나 분석 방법을 모를 때 사용한다.
  • 통찰 분석은 분석 대상을 모르지만 분석 방법을 알고 있을 때 사용한다.
  • 발견 분석은 분석 대상과 분석 방법을 모두 모를 때 사용한다.
  • KDD (Knowledge Discovery in Database) 방법론은 Data셋 선택, Data 전처리, Data 변환, Data 마이닝, 해석과 평가 순으로 진행된다.
  • CRISP-DM (Cross Industry Standard Process for Data Mining) 방법론은 업무 이해, Data 이해, Data 준비, 모델링, 평가, 전개 순으로 진행된다.
  • [참조: 두음법칙 암기] * 하향식 접근법 (문제가 정의된 경우): 탐/정/탐/검 (문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토). * 상향식 접근법 (Data 기반 문제 발굴): 분/흐/식/정 (프로세스 분류, 프로세스 흐름 분석, 분석 요건 식별, 분석 요건 정의).

    마스터 플랜 및 우선순위

  • 분석 마스터 플랜 수립 시 과제 우선순위 설정 기준은 전략적 중요도, 비즈니스 성과, 실행 용이성이다.
  • 우선순위 평가에서 중요하게 고려되는 기준 요소는 시급성과 난이도이다.

  • 1.3 데이터 수집 및 저장 계획

    Data 수집 방법과 척도

  • 정형 Data는 DBMS, 스프레드시트 등에 저장되며 ETL (Extract Transform Load), FTP (File Transfer Protocol), Open API (Application Programming Interface) 등으로 수집한다.
  • 반정형 Data는 HTML, XML, JSON 등이며 웹 크롤링, RSS, Open API 등으로 수집한다.
  • 비정형 Data는 소셜 Data, 영상, 문서 등이며 웹 크롤링, 스트리밍 등으로 수집한다.
  • 명목 척도는 성별, 혈액형처럼 순위 없이 특정 범주에 존재하는 척도이다.
  • 순위 척도는 학년, 석차처럼 순위가 있는 척도이다.
  • 구간 척도는 온도, 점수처럼 절대적인 원점이 존재하지 않는 척도이다.
  • 비율 척도는 무게, 키처럼 절대적인 원점이 존재하는 척도이다.
  • Data 변환 및 품질 검증

  • 평활화는 이상치를 제거하는 방법이다.
  • 정규화는 Data를 특정 구간 안에 들어가게 변환하는 방법으로 최소-최대 정규화, z-score 정규화 등이 있다.
  • Data 품질 요소는 정확성, 완전성, 적시성, 일관성으로 구성된다.
  • Data 품질 검증 요소 중 Data 프로파일링은 통계 기법을 이용해 패턴을 파악하여 잠재적 오류 징후를 발견하는 방법이다.
  • 정형 Data 품질 검증 기준에서 완전성은 필수항목 누락이 없어야 함을 의미하며 유일성은 중복이 없어야 함을 의미한다.
  • Data 저장 및 처리 기술

  • 배치 처리는 Data를 일괄적으로 모아서 주기적으로 처리하는 기술이다.
  • 실시간 처리는 Data가 수집되는 동안 실시간으로 처리하는 기술이다.
  • Data 웨어하우스는 의사결정에 도움을 주기 위해 변환되어 관리되는 Database로 주제지향성, 통합성, 시계열성, 비휘발성의 특징을 가진다.
  • 스타 스키마는 Data 웨어하우스의 모델링 기법 중 하나로 단일 테이블을 중심으로 다수의 차원 테이블이 연결되어 복잡도가 낮다.
  • Data 레이크는 정형, 비정형을 막론한 다양한 형태의 가공되지 않은 Data 원본(Raw Data)을 모은 집합소이다.
  • [참조: 비전공자를 위한 개념 이해 - Data 통합 및 저장 기술] * ETL (Extract Transform Load): Data 원천에서 Data를 추출 및 변환하여 Data 웨어하우스에 정해진 시점에 적재하는 작업이다. * CDC (Change Data Capture): Database 내 Data의 변경을 식별하여 실시간으로 필요한 후속 처리를 자동화하여 적재하는 기술이다. * EAI (Enterprise Application Integration): 기업 정보 시스템들의 서로 다른 Data를 연계 통합하는 프레임워크이자 연동 Hub이다. * HDFS (Hadoop Distributed File System): 대량의 자료를 분산 저장하고 처리할 수 있는 하둡 에코시스템의 분산 파일 시스템이다. * NoSQL: 대규모 비정형 Data를 저장하기 위해 고정된 스키마가 없고 수평 확장이 가능한 DBMS이다.