티스토리 뷰

반응형
  1. 빅데이터 플랫폼
  2. 빅데이터와 인공지능
  3. 개인정보보호법 제도
  4. 개인정보 활용

[빅분기]1.2_빅데이터_기술_및_제도.pdf
0.30MB

1. 빅데이터 플랫폼

(1) 빅데이터 플랫폼의 개념

  • 가치를 추출하기 위한 과정 (수집 → 저장 → 처리 → 분석 → 시각화 과정)을 규격화한 기술
  • 특화된 분석 (의료, 환경, 범죄, 자동차)을 지원하는 빅데이터 플랫폼이 발전하는 추세임

(2) 빅데이터 플랫폼 구성 요소

  • 수집 : 원천 데이터의 정형/반정형/비정형 데이터 수집 ex) ETL , EAI, 크롤러
  • 저장 : 정형/반정형/비정형 데이터 저장 ex) RDBMS, NoSQL
  • 분석 : 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 ex) SNS 분석, 예측 분석
  • 활용 : 데이터 가시화 및 BI, Open API 연계 ex) 히스토그램, 인포그래픽 등

*EAI_Enterprise Architecture Integration : 기업에서 운영하는 서로 다른 기종의 애플리케이션 및 시스템을 통합하는 솔루션

*RDBMS_Relation DBMS : 2차원 테이블인 데이터 모델에 기초를 둔 관계형 데이터베이스를 생성수정관리하는 소프트웨어

*NoSQL_ Not Only SQL : 전동적인 RDBMS 와 다른 DBMS를 지칭하기 위한 용어. 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적 확장이 가능한 DBMS.

(3) 빅데이터 플랫폼 데이터 형식

  • HTML : HyperText Markup Language
  • XML : eXtensible Markup Language
  • CSV
  • JSON : JavaScript Object Notation _ <키 : 값>으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷

HXCJ

(4) 빅데이터 플랫폼 구축 소프트웨어

  • R : 빅데이터 분석
  • Oozie 우지 : 워크플로우 관리 : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템. (스케줄링/모니터링)
  • Flume 플럼 : 데이터 수집 : 이벤트와 에이전트를 활용하여 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동
  • HBase : 분산 데이터베이스 : 컬럼 기반 저장소로 HDFS와 인터페이스 제공
  • Sqoop 스쿱 : 정형 데이터 수집 : SQL to Hadoop의 약자. 커넥터를 하용하여 RDBMS에서 HDFS(하둡 파일 시스템)으로 데이터를 수집하거나, HDFS에서 RDBMS로 데이터를 보내는 기능을 수행

-분산 컴퓨팅 환경 소프트웨어 구성 요소

  • 맵리듀스 Map Reduce : Key-Value형태의 데이터 처리. Map → Shuffle → Reduce 순서대로 데이터 처리.
  • Map : key-value 형태로 데이터를 취합
  • Shuffle : 데이터를 통합하여 처리
  • Reduce : 맵 처리된 데이터를 정리
  • 얀 YARN : 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼 리소스 매니저(master)와 노드 매니저(slave)로 구성
  • 리소스 매니저 : 스케줄러 역할을 수행하고 클러스터 이용률 최적화를 수행
  • 노드 매니저 : 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너를 관리
  • 애플리케이션 마스터 : 리소스 매니저와 자원의 교섭을 책임지고, 컨테이너를 실행
  • 컨테이너 : 프로그램 구동을 위한 격리 환경을 지원하는 가상화 자원
  • 아파치스파크 Apache Spark : 하둡 기반 대규모 데이터 분산 처리 시스템 스트리밍 데이터 ,온라인 머신러닝 등 실시간 데이터 처리 스칼라, 자바, 파이썬, R 등에 사용 가능
  • 하둡분산파일시스템 HDFS : Hadoop Distributed File System 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 네임 노드(Master)와 데이터 노드 (Slave)로 구성
  • 네임 노드 : 파일 이름 ,권한 등의 속성 기록
  • 데이터 노드 : 일정한 크기로 나눈 블록 형태로 저장
  • 아파치하둡 Apache Hadoop : 분산파일 시스템 HDFS와 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석 ex) Spark, Hive, YARN, Cassandra, Pig 등

(5) 하둡 에코 시스템

  • 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임
  • 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있음

(5.1) 하둡 에코시스템의 수집, 저장, 처리 기술

  • 비정형 데이터 수집
  • 척와 Chukwa : 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장
  • 플럼 Flume : 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
  • 스크라이브 Scribe : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집해 분산시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술. 최종 데이터는 HDFS외에 다양한 저장소를 활용 가능. HDFS에 저장하기 위해서는 JNI를 활용
  • 정형 데이터 수집
  • 스쿱 Sqoop : 대용량 데이터 전송 솔루션, 커넥터를 사용해 RDBMS에서 HDFS로 데이터를 수집하거나, HDFS 하둡 파일 시스템에서 RDBMS로 데이터를 보내는 기능 수행. 오라클, MS-SQL, DB2와 같은 상용 RDBMS와 MySQL과 같은 오픈 소스 RDBMS 지원
  • 히호 Hiho : 스쿱과 같은 대용량 데이터 전송 솔루션. 현재 깃허브에서 공개되어있음. 하둡에서 데이터를 가져오기 위한 SQL를 지정할 수 있으며, JDBC 인터페이스를 지원, 현재는 오라클, Mysql의 데이터만 전송 지원
  • 분산 데이터 저장
  • HDFS : 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템. 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원 다중 복제, 대량 파일 저장, 온라인 변경, 범용 서버 기반, 자동 복구 특징이 있음
  • 분산 데이터 처리
  • 맵리듀스 Map Reduce : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크. 모든 데이터를 Key-Value 쌍으로 구성, 데이터를 분류
  • 분산 데이터 베이스
  • HBase : 컬럼 기반 저장소로 HDFS와 인터페이스 제공. 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트할 수 있음

*JNI _Java Native Interface

(5.2) 하둡 에코시스템의 데이터 가공 및 분석, 관리를 위한 주요 기술

  • 데이터 가공
  • 피그 pig : 대용량 데이터 집합을 분석하기 위한 플랫폼. 하둡을 이용해 맵리듀스를 사용하기 위한 스크립트 언어 '피그 라틴'이라는 자체 언어를 제공. 맵리듀스 API를 단순화시키고 SQL과 유사한 형태로 설계됨. (유사하기만함)
  • 하이브 Hive : 하둡 기반의 DW솔루션. SQL과 유사한 HIVEQL이라는 쿼리를 제공. (내부적으로 맵리듀스로 변환되어 실행되는 쿼리)
  • 데이터 마이닝
  • 머하웃 Mahout : 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스. 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원
  • 실시간 SQL 질의
  • 임팔라 Impala : 하둡 기반의 실시간 SQL 질의 시스템. 데이터 조회를 위한 인터페이스로 HiveQL을 사용. 수초 내에 SQL 질의 결과를 확인할 수 있으며, HBase와 연동 가능
  • 워크플로우 관리
  • 우지 Oozie : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템. 자바 웹 애플리케이션 서버. 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
  • 분산 코디네이션
  • 주키퍼 Zookeeper : 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공. 하나의 서버에만 서비스가 집중되지 않도록 분산하여 동시 처리. 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화해 데이터의 안정성을 보장.

2. 빅데이터와 인공지능

(1) 인공지능의 개념

(2) 빅데이터와 인공지능의 관계

딥러닝 : 사람의 개입이 필요한 기존의 지도 학습보다 더 능동적인 비지도학습이 결합되어 컴퓨터가 스스로 학습할 수 있는 인공지능 기술

(3) 빅데이터와 인공지능의 전망

빅데이터는 인공지능 구현 완성도를 높여주고, 인공지능을 통해 문제 해결 완성도를 높임

3. 개인정보보호법, 제도

(1) 개인정보보호의 개념

  • 개인정보 자기 결정권

(2) 개인정보보호의 필요성

  • 유출시 피해 심각, 정보사회 핵심 인프라, 개인정보 자기 통제권

(3) 빅데이터 개인 정보 보호 가이드 라인

  • 개인정보 비식별화 : 개인정보가 포함된 공개 정보, 이용 내역 정보는 비식별화 조치를 취한 후 수집, 저장, 조합, 분석 및 제 3자 제공 등 가능
  • 개인정보 재식별 시 조치 : 개인정보 재식별시 즉시 파기 및 비식별화 조치.
  • 민감정보 처리 : 민감정보 처리 금지
  • 투명성 확보 : 개인정보 취급 방침, 수집 출처 고지
  • 수집정보의 보호조치 : 수집된 정보의 저징관리 시 기술적, 관리적 보호조치

(4) 개인정보보호 관련 법령

  • 개인정보 보호법
  • 정보통신망법 : 정보통신망을 통해 수집,처리,보관,이용되는 개인정보의 보호에 관한 규정
  • 신용정보법
  • 위치정보법
  • 개인정보의 안전성 확보조치 기준 :
  • 개망신 위안

(5) 개인정보보호 내규

  • 정보보호 업무처리 지침
  • 개발 보안 가이드
  • 개인정보 암호화 매뉴얼
  • 소프트웨어 개발 보안 구조 : 정보보안 통제 구조. 전체적인 정보기술 아키텍처와의 관련성 명시
  • 기술적, 관리적 보호

*정보기술 아키텍처 : 일정한 기준과 절차에 따라 조직의 정보화 구성요소들을 통합적으로 분석한 뒤 이들 간의 관계를 구조적으로 정리한 체제.

4. 개인정보 활용

(1) 개인정보 비식별화 개념

(2) 개인정보 비식별화 절차

  • 사전검토
  • 비식별조치
  • 적정성 평가 : 다른 정보와 쉽게 결합하여 개인을 식별할 수 있는지를 평가
  • 사후관리

(3) 개인정보 비식별 조치 방법

  • 가명처리 : 휴리스틱 익명화, 암호화, 교환방법
  • 총계처리 : 개인정보에 대한 통곗값을 적용해 비식별화 : 총계처리 기본방식, 부분집계, 라운딩, 데이터 재배열,
  • 데이터 삭제 : 속성값 삭제, 속성값 부분 삭제, 준 식별자 제거를 통한 단순 익명화
  • 데이터 범주화 : 단일 식별 정보를 해당 그룹의 대푯값으로 변환해 고유정보 추적 및 식별 방비 : 랜덤 올림 방법, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법
  • 데이터 마스킹 : 부분/전체적으로 대체값으로 변환 : 임의잡음 추가 방법 * , 공백과 대체 방법

(4) 재식별 가능성 모니터링

  • 내부 요인의 변화
  • 외부 환경의 변화
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함