1.1 빅데이터의 이해
Data와 지식의 개념
Data란 이론을 세우는 데 기초가 되는 자료 혹은 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 등의 형태로 되어 있는 자료를 말한다.Data가 의미를 담고 있으면 정보라고 부르며, 의미를 담고 있지 않으면 단순한 자료로 본다.정형 Data는 수치로 표현될 수 있는 Data이며 영화 평점, 시험 성적 등이 해당한다.비정형 Data는 수치로 표현될 수 없는 Data이며 영화 감상평 등이 해당한다.암묵지는 학습과 경험을 통해 개인이 습득했지만 겉으로 드러나지 않는 지식이다.형식지는 암묵지가 문서로 정리되어 여러 사람이 공유할 수 있는 지식이다.Database와 빅데이터
Database는 전자적, 체계적으로 관리되어 있는 Data들의 집합이다.DBMS (Database Management System)는 사용자가 Database를 쉽게 구축 또는 관리할 수 있게 하는 소프트웨어이다.Database에 저장된 Data는 동일한 Data가 중복되지 않게 저장되며 컴퓨터에 저장되어 여러 사용자가 사용할 수 있고 수정이 가능하다.빅데이터란 막대한 양의 정형 및 비정형 Data들을 의미하며 양적뿐만 아니라 질적으로도 복잡한 Data이다.빅데이터의 기본 특징 3V는 크기, 다양성, 속도이다.빅데이터의 추가적인 특징 2V는 가치와 정확성이다.[참조: 두음법칙 암기]
* DIKW 피라미드: 데/정/식/헤 (Data, 정보, 지식, 지혜).
* 빅데이터 3V: 크/다/속 (크기, 다양성, 속도).
빅데이터의 가치와 통제
빅데이터는 경제적 자산을 창출하고 불확실성을 제거하며 스마트한 경쟁력을 제공하고 타 분야 융합을 통한 새로운 가치를 창출한다.Data 활용 방식과 가치 창출 방식을 예측하기 어렵고 분석 기술이 계속 발전하기 때문에 빅데이터의 가치 판단은 어렵다.빅데이터 활용 시 사생활 침해, 책임 원칙 훼손, Data 오용의 단점이 발생할 수 있다.사생활 침해는 개인정보 동의보다 사용자의 책임 원칙으로 해결해야 한다.Data 오용은 알고리즘에 대한 접근성을 보장하여 해결할 수 있다.분석 역량 및 조직 구성
가트너의 분석 가치 에스컬레이터는 묘사분석, 진단분석, 예측분석, 처방분석으로 나뉜다.Data 사이언스는 Analytics, IT, 비즈니스 분석으로 구성된다.Data 사이언티스트는 이론적 지식인 하드스킬과 창의적 사고, 커뮤니케이션 등의 소프트스킬을 모두 갖춰야 한다.기업의 분석 조직 평가는 도입, 활용, 확산, 최적화 단계의 성숙도로 나뉜다.인공지능 모형 중 머신러닝은 학습 Data를 바탕으로 새로운 Data를 예측하는 모형이다.딥러닝은 인공 신경망을 사용하는 머신러닝의 한 종류이다.[참조: 두음법칙 암기]
* 가트너 분석 가치: 묘/진/예/지 (묘사, 진단, 예측, 처방(지시)).
* 조직 성숙도 단계: 도/활/확/최 (도입, 활용, 확산, 최적화).
마이데이터 및 개인정보보호
마이데이터는 개인이 자신의 개인정보를 알고 제어하며 이익 공유를 주장하는 운동이다.개인정보 처리자는 민감한 정보 등 사생활을 침해할 우려가 있는 정보는 처리를 금지해야 한다.채용 지원서에 주민등록번호 기재를 요구하여 Data를 수집할 수 없다.Data 수집 시 개인정보 자기 결정권에 따라 정보 주체는 동의 범위 선택, 열람, 처리 정지 및 파기를 요구할 권리가 있다.비식별화 기법에는 가명처리, 총계처리, Data 삭제, Data 범주화, Data 마스킹이 있다.[참조: 비전공자를 위한 개념 이해 - 비식별화 모델]
* k-익명성: 주어진 Data 집합에서 같은 값이 적어도 k개 이상 존재하게 하여 특정 개인을 추론하지 못하게 하는 모형이다.
* l-다양성: k-익명성을 보완하여, 비식별되는 레코드들이 적어도 l개의 서로 다른 민감한 정보를 가지도록 하는 모델이다.
* t-근접성: 동질 집합에서 특정 정보의 분포와 전체 Data 집합의 정보 분포가 t 이하의 차이를 보이도록 하는 모델이다.
* m-유일성: 원본 Data와 동일한 속성 값 조합이 비식별 결과에 최소 m개 이상 존재하게 하여 재식별 위험을 낮춘 모델이다.
1.2 데이터 분석 계획
분석 방법론 및 접근법
최적화 분석은 분석 대상과 분석 방법을 모두 알고 있을 때 사용한다.솔루션 분석은 분석 대상을 알고 있으나 분석 방법을 모를 때 사용한다.통찰 분석은 분석 대상을 모르지만 분석 방법을 알고 있을 때 사용한다.발견 분석은 분석 대상과 분석 방법을 모두 모를 때 사용한다.KDD (Knowledge Discovery in Database) 방법론은 Data셋 선택, Data 전처리, Data 변환, Data 마이닝, 해석과 평가 순으로 진행된다.CRISP-DM (Cross Industry Standard Process for Data Mining) 방법론은 업무 이해, Data 이해, Data 준비, 모델링, 평가, 전개 순으로 진행된다.[참조: 두음법칙 암기]
* 하향식 접근법 (문제가 정의된 경우): 탐/정/탐/검 (문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토).
* 상향식 접근법 (Data 기반 문제 발굴): 분/흐/식/정 (프로세스 분류, 프로세스 흐름 분석, 분석 요건 식별, 분석 요건 정의).
마스터 플랜 및 우선순위
분석 마스터 플랜 수립 시 과제 우선순위 설정 기준은 전략적 중요도, 비즈니스 성과, 실행 용이성이다.우선순위 평가에서 중요하게 고려되는 기준 요소는 시급성과 난이도이다.
1.3 데이터 수집 및 저장 계획
Data 수집 방법과 척도
정형 Data는 DBMS, 스프레드시트 등에 저장되며 ETL (Extract Transform Load), FTP (File Transfer Protocol), Open API (Application Programming Interface) 등으로 수집한다.반정형 Data는 HTML, XML, JSON 등이며 웹 크롤링, RSS, Open API 등으로 수집한다.비정형 Data는 소셜 Data, 영상, 문서 등이며 웹 크롤링, 스트리밍 등으로 수집한다.명목 척도는 성별, 혈액형처럼 순위 없이 특정 범주에 존재하는 척도이다.순위 척도는 학년, 석차처럼 순위가 있는 척도이다.구간 척도는 온도, 점수처럼 절대적인 원점이 존재하지 않는 척도이다.비율 척도는 무게, 키처럼 절대적인 원점이 존재하는 척도이다.Data 변환 및 품질 검증
평활화는 이상치를 제거하는 방법이다.정규화는 Data를 특정 구간 안에 들어가게 변환하는 방법으로 최소-최대 정규화, z-score 정규화 등이 있다.Data 품질 요소는 정확성, 완전성, 적시성, 일관성으로 구성된다.Data 품질 검증 요소 중 Data 프로파일링은 통계 기법을 이용해 패턴을 파악하여 잠재적 오류 징후를 발견하는 방법이다.정형 Data 품질 검증 기준에서 완전성은 필수항목 누락이 없어야 함을 의미하며 유일성은 중복이 없어야 함을 의미한다.Data 저장 및 처리 기술
배치 처리는 Data를 일괄적으로 모아서 주기적으로 처리하는 기술이다.실시간 처리는 Data가 수집되는 동안 실시간으로 처리하는 기술이다.Data 웨어하우스는 의사결정에 도움을 주기 위해 변환되어 관리되는 Database로 주제지향성, 통합성, 시계열성, 비휘발성의 특징을 가진다.스타 스키마는 Data 웨어하우스의 모델링 기법 중 하나로 단일 테이블을 중심으로 다수의 차원 테이블이 연결되어 복잡도가 낮다.Data 레이크는 정형, 비정형을 막론한 다양한 형태의 가공되지 않은 Data 원본(Raw Data)을 모은 집합소이다.[참조: 비전공자를 위한 개념 이해 - Data 통합 및 저장 기술]
* ETL (Extract Transform Load): Data 원천에서 Data를 추출 및 변환하여 Data 웨어하우스에 정해진 시점에 적재하는 작업이다.
* CDC (Change Data Capture): Database 내 Data의 변경을 식별하여 실시간으로 필요한 후속 처리를 자동화하여 적재하는 기술이다.
* EAI (Enterprise Application Integration): 기업 정보 시스템들의 서로 다른 Data를 연계 통합하는 프레임워크이자 연동 Hub이다.
* HDFS (Hadoop Distributed File System): 대량의 자료를 분산 저장하고 처리할 수 있는 하둡 에코시스템의 분산 파일 시스템이다.
* NoSQL: 대규모 비정형 Data를 저장하기 위해 고정된 스키마가 없고 수평 확장이 가능한 DBMS이다.