티스토리 뷰
- 데이터 수집
- 데이터 유형 및 속성 파악
- 데이터 변환
- 데이터 비식별화
- 데이터 품질 검증
- 데이터 처리 기술
- 데이터 필터링 : 정형 데이터는 사전 테스트를 통해 오류 발견, 보정, 삭제, 중복 검사로 필터링 비정형 데이터는 데이터 마이닝에 자연어처리, 기계학습같은 추가기술로 오류 중복 필터링
- 데이터 변환 : 다양한 형식으로 수집된 데이터를 분석이 쉽도록 일관성 있는 형식으로 변환
- 데이터 정제 : 수집된 데이터의 불일치성 교정을 위해 결측값 처리, 노이즈(잡음)처리 기술 활용
- 데이터 통합 : 출처가 다른 상호 연관성이 있는 데이터들을 하나로 결합하는 기술 (통합 시 연관 관계 분석으로 중복 데이터 검출 필요)
- 데이터 축소 : 분석에 불필요한 데이터를 축소하여 고유한 특성은 손상되지 않도록 하고 분석 효율성 증대
*결측값 Missing Value : 입력이 누락된 값
1. 데이터 수집
(1) 데이터 수집 프로세스
- 수집 데이터 도출
- 목록 작성 : 가능성(사용가능?수집가능?), 보안, 정확성(활용 목적에 따른 세부 항목이 적절히 포함?), 수집 비용(데이터 수집 비용은?)
- 데이터 소유기관 파악 및 협의 : 데이터 소유자의 데이터 개발 현황/조건, 적용기술, 보안 사항 파악 및 협의
- 데이터 유형 분류 및 확인
- 수집 기술 선정 : 데이터 유형 및 포맷에 맞는 수집 기술 선정. 확장성, 안정성, 실시간성 및 유연성 확보 필요
- 수집 계획서 작성 : 데이터 출처, 수집 기술, 수집 주기 및 수집 담당자의 주요 업무 등 반영
- 수집 주기 결정 : 데이터 유형에 따라 배치 또는 실시간 방식 적용
- 데이터 수집 실행 : 사전 테스트 진행 후 데이터 수집 시행
(2) 수집 데이터의 대상
데이터의 위치에 따라 내부데이터와 외부 데이터로 나뉜다
- 원천 데이터 수집 유형
- 내부 데이터 : 조직 내부에 데이터가 위치. 주로 수집이 용이한 정형 데이터
- 외부 데이터 : 조직 외부. 특정 기관의 담당자 협의 또는 데이터 전문 업체를 통해 데이터 수집. 공공 데이터 포털을 통해 Open API 또는 파일을 통해 수집. 주로 수집 어려운 비정형 데이터
- 원천 데이터 예시
- 내부 데이터 : 서비스(CSM, ERP, CRM, 포털, 원장정보 시스템, 인증 시스템, 거래 시스템) 네트워크 (백본, 방화벽, 스위치, IPS, IDS) 마케팅 (VOC 접수 데이터, 고객 포털 시스템)
- 외부 데이터 : 소셜 (SNS, 커뮤니티, 게시판) 네트워크 (센서 데이터, 장비간 발생 로그(M2M)) 공공 (정부 공개 경제, 의료, 지역정보, 공공정책, 과학, 교육, 기술 등의 공공 데이터 (LOD))
*SCM Supply Chain Management : 부품 제공업자. 생산자, 배포자, 고객에 이르는 물류의 흐름을 하나의 가치사슬 관점에서 파악하고 필요한 정보가 원활히 흐르도록 지원하는 시스템
*ERP Enterprise Resource Planning : 전사적 자원 관리. 회사 정보, 공급사슬관리, 고객 주문정보까지 포함한 통합 관리 시스템
*IPS Intrusion Prevention System : 인터넷 웜 등의 악성코드 및 해킹으로 인한 유해 트래픽을 차단해주는 솔루션. 내부 네트워크로 침입하는 네트워크 패킷을 찾아 제어하는 기능을 가짐.
*IDS Intrusion Detection System : 해커들이 시스템을 조작하는 것을 탐지하는 솔루션.
*M2M Machine to Machine : 모든 사물에 센서 통신 기능을 부과해 지능적으로 정보를 수집하고 상호 전달하는 기술
*LOD Linked Open Data : 웹상에 존재하는 데이터를 개별 URI로 직별하고 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 오픈 데이터이다.
(3) 데이터 수집 방식 및 기술
수집 대상 데이터는 데이터의 구조적 관점에 따라 정형,비정형,반정형으로 나뉜다.
(3.1)
- 정형 데이터 수집 방식 및 기술
- ETL - Extract Transform Load : 수집 대상 데이터를 추출, 가공해 데이터 웨어하우스 및 데이터마트에 저장하는 기술
- FTP - File Transfer Protocol : 원격지 시스템 간에 파일을 공유하기 위한 서버,클라이언트 모델로 TCP/IP 기반으로 파일을 송수신하는 응용계층 통신 프로토콜. 서버와 클라이언트 사이 파일 전송 시 보안 강화 위해 SSH Secure Shell를 적용한 SFTP사용권고
- API - Application Programming Interface: 시스템간 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능을 제공하는 인터페이스 기술
- DBtoDB : 디비 시스템간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술
- Rsync - Remote Sync : 서버 클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술
- Sqoop : 커넥터를 사용해 관계형 데이터베이스 RDB와 하둡 간 데이터 전송 기능을 제공하는 기술. 스쿱은 모든 적재 과정을 자동화하고 병렬 처리 방식으로 작업
*데이터웨어하우스 DW ; 데이터를 공통 형식으로 변환해서 관리하는 디비
*데이터 마트 DM : DW환경에서 정의된 접근계층, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할
*하둡 : 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크. 하둡은 분산 파일 시스템인 HDFS에 데이터를 저장하고, 분산 처리 시스템인 맵리듀스를 이용해 데이터를 처리한다.
- ETL (Extract Transform Load) : 데이터 분석을 위한 데이터를 DW DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술
- ETL 프로세스
- 추출 : 동일 또는 이기종 소스 데이터베이스로부터 데이터를 추출. JDBC, ODBC, 써드파티 툴 활용
- 변환 : 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터 변환 . 데이터 결합/통합, 재구성 및 중복 제거, 일관성 확보를 위한 정제, 데이터표준화 수행
- 적재 : 추출 및 변환된 데이터를 최종 대상 (DW or DM)에 저장. Insert, Delete, Update, Append 수행
- ETL 프로세스
- FTP (File Transfer Protocol) : TCP/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다.
- FTP 유형
- Active FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로 데이터를 전송해주는 방식
- Passive FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식
- FTP 유형
- Sqoop : 커넥터를 사용해 RDBMS(Mysql,oracle)에서 저장소=하둡파일시스템=HDFS으로 데이터를 수집하거나, 저장소에서 RDBMS로 데이터를 보낼 수 있다.
- 스쿱 특징
- 벌크 임포트 지원 : 전체 데이터베이스 또는 테이블을 HDFS로 한 번에 전송 가능
- 데이터 전송 병렬화 : 시스템 사용률과 성능을 고려한 병렬 데이터 전송
- 직접 입력 제공 : RDB에 매핑해서 저장소(HBase Hive)에 직접 import 제공
- 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통한 데이터 상호작용
- 스쿱 특징
*인터랙션 Interaction : 입출력 장치를 매개로 디지털 시스템과 사람이 주고받는 일련의 의사소통 과정
- 스쿱 주요 기능
- 구조
- 스쿱 클라이언트 : 스쿱 1에서 지원하며, 클라이언트 기반으로 import export 제공
- 스쿱 서버 : 스쿱 2에서 지원하며, 클라이언트의 요청을 받아 작업을 수행
- 커넥터
- FTP 커넥터 : FTP 서버와 다른 스쿱 2 커넥터 간에 데이터 이동 지원
- JDBC 커넥터 : JDBC 4를 지원하는 모든 데이터베이스에 연결하여 데이터 이동 지원
- HDFS 커넥터 : HDFS 연결을 통해 데이터 이동 지원
- 카프카 커넥터 :
- Kite 커넥터 :
- SFTP 커넥터 :
- 툴
- Import : 다른 저장소의 데이터를 지정된 저장소(HDFS, Hive, HBase)로 가져오기 기능
- Export : 저장소의 데이터를 다른 저장소 (RDBMS)로 내보내기 가능
- Job : 지정된 잡의 생성, 실행 기능
- Metastore : 공유된 메타데이터 저장소를 호스팅할 수 있도록 구성하는 기능
- Merge : 동일한 데이터를 포함하는 두 개의 데이터 세트를 병합하는 기능
- 구조
(3.2)
- 비정형 데이터 수집 방식 및 기술
- 크롤링 : 인터넷 웹사이트로부터 웹 문서 및 컨텐츠 수집 기술
- RSS Rich Site Summary : 블로그, 뉴스 등 웹의 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
- Open API : 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술
- Scrapy 스크래파이 : 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술
- Apache Kafka 아파치 카프카 : 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발생, 구독하는 방식의 분산 스트리밍 플랫폼 기술
- 스크래파이 : 파이썬 언어 기반의 비정형 데이터 수집 기술
- 스크래파이 특징 및 주요 기능
- 특징 :
- 파이썬 기반
- 단순한 스크랩 과정 : 크롤링 수행 후 바로 데이터 처리 가능
- 다양한 부가 요소 :
- 주요 기능 :
- Spider : 크롤링 대상 웹 사이트 및 웹 페이지의 어떤 부분을 스크래핑할 것인지를 명시하는 기능
- Selector : 웹 페이지의 특정 HTML요소를 선택하는 기능. LXML 기반으로 제작 가능
- Items : 웹 페이지를 스크랩하여 저장할 때 사용되는 사용자 정의 자료 구조
- Pipelines : 스크래핑 결과물을 아이템 형태로 구성할 때 가공하거나 파일 형태로 저장 제공 기능
- Settings : Spider 와 Pipeline을 동작시키기 위한 세부 설정
- 특징 :
- 스크래파이 특징 및 주요 기능
- 아파치 카프카
- 특징
- 신뢰성 제공 : 메모리 및 파일 큐 기반의 채널 지원
- 확장성 제공 : 수평 확장 가능, 수집 분산 처리 가능
- 주요 기능
- 소스 : 외부 이벤트 생성, 수집 영역. 1개로 구성되며 복수 채널 지정 가능.
- 채널 : 소스와 싱크 간 버퍼 구간. 채널별로 1개싱크 지정
- 싱크 : 채널로부터 수집된 로그 또는 이벤트를 목적지에 전달 및 저장
- 인터프리터 : 수집된 로그 또는 이벤트를 가공
- 특징
(3.3)
- 반정형 데이터 수집 방식 및 기술
- 센싱 Sensing : 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용
- 스트리밍 Streaming : 네트워크를 통해 센서 데이터 및 오디오, 비디오 등 데이터를 실시간으로 수집하는 기술
- 플럼 Flume : 스트리밍 데이터 흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술.
- 스크라이브 Scribe : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
- 척와 Chukwa : 대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해 데이터를 수집. 수집된 데이터를 HDFS에 저장하는 기능을 제공하는 데이터 수집 기술.
*척와는 비정형 반정형 데이터 수집 모두에 사용됨.
- 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집게, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
- 특징
- 발행 publisher / 구독 subscriber 모델 :
- 고가용성 제공 :
- 파일 기반 저장방식 :
- 주요 기능
- 소스 :
- 채널 :
- 싱크 :
- 특징
- 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술.
- 특징
- 실시간 스트리밍 수집
- 확장
- 데이터 수집 다양성
- 고가용성 : 단일 중앙 스크라이브 서버와 다중 로컬 스크라이브 서버로 구성. 중앙 서버 장애시 로컬 서버에 데이터 저장 후 중앙 서버 복구
- 특징
- 척와 : 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 수집하여 HDFS에 저장, 실시간 분석 기능을 제공하는 기술
- 특징
- HDFS연동 : 수집된 로그 파일을 HDFS에 저장하는 기능 지원
- 실시간 분석 제공 : HDFS를 통한 실시간 분석 지원
- 청크 단위 처리 : 어댑터가 데이터를 메타데이터가 포함된 청크 단위로 전송
- 구성
- 에이전트 : 에이전트를 통해 데이터 수집
- 컬렉터 : 에이전트로부터 수집된 데이터를 주기적으로 HDFS에 저장. 여러 에이전트로부터 수신된 데이터를 단일 싱크 파일에 저장
- 데이터 처리
- 아카이빙 : 컬렉터가 저장한 로그 파일에 대해 시간 순서로 동일한 그룹으로 묶는 작업 수행. 데이터 중복 제거 및 정렬 작업을 수행하고 HDFS Sequnce File 포맷으로 저장
- 디먹스 :
- 특징
*메타 데이터 : 자료 그 자체가 아니라 자료의 속성을 설명하는 데이터.
*청크 : 파일이 나누어진 조각의 단위
*페일오버 Fail Over : 서버, 시스템, 네트워크 등에 이상 생겼을 때 예비 시스템으로 자동 전환되는 기능
2. 데이터 유형 및 속성 파악
(1) 데이터 유형
- 구조 관점에서 데이터 유형
- 정형 데이터
- 반정형 데이터
- 비정형 데이터
- 시간 관점에서 데이터 유형
- 실시간 데이터
- 비실시간 데이터
- 저장 형태에서 데이터 유형
- 파일 데이터
- 데이터베이스 데이터
- 콘텐츠 데이터
- 스트림 데이터
- 구조
- 정형 : 정형화된 스키마 구조. DBMS 에 내용이 저장될 수 있는 구조. 고정된 필드(속성)에 저장된 일관성 있는 데이터 ex) 관계형 데이터베이스 (오라클, MS-SQL), 스프레드 시트
- 반정형 : 메타 데이터나 데이터 스키마 정보를 포함하지만 값과 형식에서 일관성은 없는 데이터. 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조. 고정된 필드에 저장되어 있지는 않음. ex) XML, HTML, JSON, 웹 로그, 알람, 시스템 로그, RSS, 센서 데이터
- 비정형 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터. 수집 데이터 각각이 데이터 객체로 구분. Crawler, API, RSS 등의 수집 기술을 활용 ex) 텍스트 문서, 이미지, 이진파일, 동영상 등
- 시간 : 활용주기
- 실시간 데이터 : 생성된 이후 수초-수분 이내에 처리되어야 의미가 있는 현재 데이터. - 센서 데이터, 시스템 로그, 알람, 보안 장비 로그
- 비실시간 데이터 : 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의미 있는 과거 데이터 - 통계, 웹로그, 구매 정보, 서비스 로그
- 저장 형태
- 파일 :
- 데이터베이스 데이터 : RDBMS, NOSQL, 인메모리 데이터베이스 등에 의해 데이터의 종류나 성격에 따라 데이터베이스 컬럼 또는 테이블에 저장된 데이터
- 콘텐츠 데이터 : 텍스트, 이미지, 오디오, 비디오
- 스트림 데이터 : 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해 실시간으로 전송되는 데이터
(2) 데이터 속성 파악
- 수집 데이터의 특징 및 형태. 종류
- 정형
- 반정형
- 비정형
- 데이터 형태에 따른 분류
- 정성적 데이터 : 언어,문자 / 기업 매출이 증가함 / 저장,검색,분석에 많은 비용 소모
- 정량적 데이터 : 수치,도형 / 키, 생일, 주가 / 정형화가 된 데이터로 비용 소모 적음
- 데이터 속성 파악
- 범주형 (명목형, 순서형)
- 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수
- 질적 변수라고 불림. Qualitive Variable
- 덧셈 불가능. 현역=1 예비역=2 1+2 의미없음
- 원그래프나 막대그래프로 퍼센트 다룸
- 수치형 (이산형, 연속형)
- 양적 변수. Quantitive Variable
- 히스토그램, 시게열 그래프
- 범주형 (명목형, 순서형)
- 데이터 속성 상세
- 범주형
- 명목형 : 명사형. 변수나 변수 크기 순서 상관 없고 의미 없이 이름만 의미 부여 가능. 삼성=1 LG=2
- 순서형 : 변수가 기준에 따라 순서에 의미를 부여할 수 있는 경우. 상태 양호=3 보통=2 나쁨=1
- 수치형 (나이는 시간이 지남에따라 계속 늘어나는 연속형 변수이지만, 1년 단위로 측정하면 이산형)
- 이산형 : 변수가 취할 수 있는 값 하나하나 셀 수 있는 경우. 문 개수, 틀린 개수, 방문 횟수
- 연속형 : 변수가 구간 안의 모든 값을 가질 수 있는 경우. 노인들의 키, 양의 정수 구간 안의 모든 값.
- 범주형
- 데이터 속성에 대한 측정 척도 : 수치형 변수는 비율 척도, 등간 척도. 범주형 변수는 명목 척도, 서열 척도, 등간 척도
- 명목 척도 Nominal Scale : 출신 국가, 고객 구분, 직업, 주택 보유 여부, 지역 번호, 혈액형, 예비역 구분
- 서열척도/순위 척도 Ordinal Scale : 맛집 별점, 선호도 조사, 이용자 등급. → 순서만 의미있고 수치의 크기나 차이는 의미 없음
- 등간척도/간격척도/거리척도 Interval Scale : 미세먼지 수치, 당뇨 수치, 3점척도(상중하)
- 비율 척도 Ratio Scale : 나이, 키, 금액, 거리, 넓이, 소득, 부피 → 비율, 평균 등 의미있음. 0이 절대적
*속성 값들을 연산했을 때 의미가 있으면 비율 척도 없으면 등간척도
*등간 척도인 온도에서 20도 2번 더했다고 40도 되는것이 의미있는것은 아님.
*비율 척도해서 100g X 2 = 200g은 상대적으로 질량이 2배만큼 큼 질량을 나타냄.
3. 데이터 변환
(1) 데이터 저장 전처리 절차
데이터 필터링, 변환, 정제, 통합, 축소 등 선정된 데이터 전후처리 방식에 따라서 데이터를 처리한다.
- 데이터 수집 → 데이터 저장관리: (데이터 전후처리 → 데이터 저장 → 데이터 보안관리 → 데이터 품질관리) → 데이터 분석 → 서비스 제공 및 이용
- 데이터 저장 전후처리 시 고려사항
- 데이터 전처리
- 데이터 후처리
- 데이터 처리 방식 선정
- 전처리 단계 : 수집한 데이터를 저장소에 적재하기 위한 작업. 데이터 필터링, 유형 변환, 정제 등의 기술 활용
- 후처리 단계 : 저장된 데이터를 분석이 용이하도록 가공하는 작업. 변환, 통합, 축소 등 기술 활용.
(2) 데이터 변환 기술
- 데이터 변환 기술
- 평활화 Smoothing : 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법
- 집계 Aggregation : 다양한 방법으로 데이터를 요약
- 일반화 Generalization : 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법. 범용적인 데이터에 적합한 모델을 만드는 기법
- 정규화 Normalization : 데이터를 정해진 구간 내에 들도록 하는 기법. -1.0 ~ 1.0
- 속성 생성 Attribute/Feature Construction : 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법
- 데이터 변환 기술 - 정규화 기법 상세
- 최소최대 정규화 : 모든 데이터에 대해 각각의 최솟값 0, 최댓값 1로 변환하는 기법. 단점은 이상값에 너무 많은 영향을 받음. 최소 20이고 최대 40이라면 30은 0.5
- 소수 스케일링 : 특성값의 소수점을 이동하여 데이터 크기를 조정하는 정규화 기법
- Z-스코어 정규화 : 이상값 문제 피하는 전략. 데이터들의 평균과 표준편차를 구하고, 평균 대비 몇 표준편차만큼 데이터가 떨어져있는지를 점수화하는 기법
4. 데이터 비식별화
(1) 데이터 보안 관리
- 수집 데이터 보안
- 개인 정보 보안 관점 : 삭제 또는 비식별조치
- 데이터 연계 보안 관점 : 데이터 연계시 보안 취약점 제거 필요
- 빅데이터 보안 관점 : 암호화를 통해 데이터 유출 시 무결성 유지 필요
빅데이터 수명 주기별 보안 관리 : 수집, 저장, 분석 단계별 보안 관리를 해야 함
- 빅데이터 수집 시 보안
- 데이터 수집 기술 취약성 :
- 수집 서버 및 네트워크 보안 : 수집 서버의 DMZ, 방화벽, 접근 제어 등 네트워크 보안 고려 필요
- 개인정보 및 기밀 정보 유출 방지 :
*DMZ : 외부 인터넷망과 내부 인프라넷 망의 사이에 위치하는 중간 지대를 지칭하는 용어
- 빅데이터 저장 보안 관리 : 저장과 처리 시 빅데이터 플랫폼에서 외부에 유출되지 않도록 안정성을 확보한다!
- 데이터 저장소 취약성 :
- 빅데이터 보안 등급 분류 : 기밀수준, 민감수준, 공개수준 등의 보안 등급 설정
- 보안 모니터링 :
- 빅데이터 분석 시 보안
- 내부 사용자 : 내부 직원 주의
- 외부 침입자 :
- 보안 로그 : 권한 통제, 사용 접근에 따라 접근 기록 등의 사용자 로그 관리
- 빅데이터 보안 대응 방안
- 빅데이터 개인 정보 : 수집, 저장, 분석, 활용
- 사용자 인증 : 수집, 저장, 분석, 활용
- 접근 제어 : 저장, 분석, 활용
- 암호화 : 수집, 저장, 분석
- 보안 모니터링 : 수집, 저장, 분석, 활용
- 보안 인프라 : 방화벽, 접근 통제...
(2) 데이터 비식별화
- 데이터 비식별화 적용 대상
- 그 자체로 개인을 식별할 수 있는 정보 : 개인식별정보(이름), 고유식별정보(주민번호), 생체정보, 기관 등의 이용자 계정
- 다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보 : 개인 특성(성별)
- 데이터 비식별화 처리 기법
- 가명처리 Pseudony misation
- 총계처리 Aggregation
- 데이터값 삭제 Data reduction
- 범주화 Data Suppression
- 데이터 마스킹 Data Masking : 대체값, 공백 * 노이즈
- 데이터 비식별화의 처리 기법에 활용되는 세부기술
- 가명 처리 세부 기술
- 휴리스틱 익명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙을 이용해서 개인정보를 숨기는 방법. 사람의 판단에 따라 가공하여 자세한 개인정보를 숨김
- K-익명화 : 같은 속성값을 가지는 데이터를 K개 이상으로 유지하여 데이터를 공개하는 방법. 지정된 속성이 가질 수 있는 값을 K개 이상으로 유지해 프라이버시 유출 방지
- 암호화 : 알고리즘으로 암호화해 개인정보를 대체. 복호화가 가능하도록 옴호화/복호화 key값을 가지고 있어야하므로 key의 보안 방안도 함께 필요
- 교환방법 : 추출된 표본 레코드에 대하여 이루어지는 방법. 미리 정해진 변수(항목)들의 집합에 대하여 데이터베이스의 레코드와 연계하여 교환
- 총계처리 세부 기술
- 총계처리 기본 방식 :
- 부분집계 : 분석 목적에 따라 부분 그룹만 비식별 처리. 다른 속성값에 비하여 오차 범위가 큰 항목이나 속성값에 대하여 통곗값을 활용하여 값을 변환
- 라운딩 : 올림,내림 기준을 적용하여 최종 집계 처리
- 데이터 재배열 : 기존 저옵 값은 유지하면서 개인정보와 연관되지 않도록 해당 데이터를 재배열. 개인의 정보가 타인의 정보와 뒤섞이지 않도록.
- 데이터값 삭제 세부 기술
- 속성값 삭제
- 속성값 부분 삭제
- 데이터 행 삭제 : 상대적으로 눈에 띄는 속성을 가진 개인정보 내용 전체를 제거
- 준 식별자 제거를 통한 단순 익명화
- 범주화 세부기술
- 범주화 기본 방식
- 랜덤 올림 방법 : 임의의 수준으로 올림 Round Up 또는 절사 Round Down
- 범위 방법 : 개인 식별 정보에 대한 수치 데이터를 임의의 수 기준의 범위로 설정하는 기법. 해당 값의 분포(Range) ,구간(Interval)으로 표현
- 세분 정보 제한 방법 Subdivide Level Controlling : 개인정보 중 단일 항목으로 개인 식별되는 항목을 민감항목(Sensitive) 또는 높은시각항목(High Visibility) 이라 하는데, 이 항목을 상.하한 코딩, 구간 재코딩 방법을 이용해 정보 노출 위험을 줄일 수 있도록 하는 기법.
- 제어 올림 방법 Controlled Rounding : 랜덤 올림 방법에서 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행열이 맞지 않는 것을 제어하여 일치시키는 기법
- 데이터 마스킹 세부기술
- 임의 잡음 추가 방법
- 공백과 대체 방법 Blank, Impute
- 단계별 조치 기준
- 사전 검토
- 비식별 조치
- 식별자 조치 기준 : 정보 집합물에 포함된 식별자는 원칙적으로 삭제 (이름, 주민번호)
- 속성자 조치 기준 : 데이터 이용 목적과 관련이 없는 속성자의 경우 원칙적으로 삭제 (성별, 병역여부)
- 비식별 조치 방법 : 여러 비식별 조치 방법을 이용해 단독 또는 복합적 활용 (가명처리, 총계처리, 데이터 삭제/범주화/마스킹)
- 적정성 평가 기준
- 기초 자료 작성 : 적정성 평가가 필요한 기초 자료를 작성 (데이터 명세, 비식별 조치현황, 이용 기관의 관리 수준)
- 평가단 구성 : 개인정보보호 책임자가 3명 이상의 관련 분야 전문가로 구성
- 평가 수행 : 비식별 수준 적정성 평가
- k-익명성
- l-다양성
- t-근접성 : 동질 집합에서 민감 정보의 분포와 전체 데이터 집합에서의 민감정보의 분포가 유사한 차이를 보이게 하는 프라이버시 보호 모델)
- 추가 비식별 조치 : 결과가 부정적이면 추가 비식별조치 실시
- 데이터 활용 : 결과가 적정이면 해당 데이터를 빅데이터 분석에 이용하거나 제 3자에게 제공
- 사후 관리 기준
- 비식별 정보 안전조치 : 비식별된 정보가 유출되면 다른 정보와 결합해 식별될 우려가 있으니 필수적 보호조치 이행 (관리적 보호조치, 기술적보호조치)
- 재식별 가능성 모니터링 :
- 가명 처리 세부 기술
5. 데이터 품질 검증
(1) 데이터 품질 특성
- 데이터 유효성
- 정확성
- 정확성
- 사실성
- 적합성 : 데이터가 정해진 유효 범위를 충족하고 있는 특성
- 필수성 : 필수 항목에 데이터의 누락이 발생하지 않는 특성
- 연관성 : 연관 관계를 가지는 데이터 항목 간에 논리상의 오류가 없는 특성
- 일관성
- 정합성 : 동일한 데이터 간에 불일치가 발생하지 않는 특성
- 일치성 : 성격이 동일한 데이터가 상호 동일한 용어와 형태로 정리되어 있는 특성
- 무결성 : 데이터 처리의 선후 관계가 명확하게 준수되고 있는 특성
- 정확성
- 데이터 활용성
- 유용성
- 충분성 : 제공 데이터가 사용자의 요구사항을 충분히 충족시킬 수 있는 특성
- 유연성 : 다양한 요구사항 수용할 수 있는 유연한 구조
- 사용성 : 공급되는 데이터가 현장에서 유용하게 사용될 수 있는 특성
- 추적성 : 데이터의 변경 내역이 관리되고 있는 특성
- 접근성
- 접근성 :
- 적시성
- 적시성 : 응답 시간과 같은 비기능적 요구사항, 데이터의 최신성 유지와 같은 품질 요건에 잘 대처되고 있는 특성
- 보안성
- 보호성 : 훼손,변조,유출 등의 위협으로부터 데이터를 안전하게 보호할 수 있는 특성
- 책임성 : 사용자 접근 권한이나 책임을 명확히 부여하는 특성
- 안정성 : 시스템의 에러나 장애를 사전에 차단, 에러 장애 발생 시 중단 및 지연을 최소화할 수 있는 특성
- 유용성
(2) 데이터 변환 후 품질 검증 프로세스
- 수집 데이터 분석
- 수집 데이터 분석 프로세스
- 메타데이터 수집 : 데이터 사전, ERD,
- 수집된 메타데이터 분석 : 조인해보며 불일치 내역 추출
- 메타데이터를 통한 데이터속성(유효성) 분석 :
- 누락 값 분석 : NULL, 공백, 0
- 값의 허용 범위 분석 : 속성의 도메인에 따라 범위 결정.
- 허용 값 목록 분석 :
- 문자열 패턴 분석 :
- 날짜 유형 분석 :
- 유일 값 분석 :
- 구조 분석 : 참조무결성 분석. 참조관계에 있는 두 테이블의 데이터가 항상 일관된 값을 갖도록 유지되는 것.
- 수집 데이터 분석 프로세스
- 데이터 유효성 여부를 검증할 수 있는 규칙 설정 기능 개발 : 일반적으로 정형 데이터에서
- 정규 표현식을 활용한 검증 수행 :
(3) 품질 검증 방안
- 빅데이터 수집 시스템의 요구사항 관련 자료 수집
- 수집된 빅데이터의 특성을 고려한 품질 검증 기준 정의
- 데이터 변환 후 빅데이터 품질 검증 기준에 따라 검증 수행
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사 2단원] 1.1 데이터 정제 PDF 제공 (양 많음 주의) (0) | 2024.08.15 |
---|---|
[빅데이터 분석기사 1단원] 3.2 데이터 적재 및 저장 PDF 제공 (0) | 2024.08.11 |
[빅데이터 분석기사 1단원] 2.1 분석 방안 수립 Pdf 제공 (0) | 2024.08.11 |
[빅데이터 분석기사 1단원] 1.2 빅데이터 기술 및 제도 PDF제공 (0) | 2024.08.11 |
[빅데이터 분석기사 1단원] 1.1 빅데이터 개요 및 활용 PDF 제공 (0) | 2024.08.11 |