
데이터 정제데이터 결측값 처리데이터 이상값 처리1. 데이터 정제(1) 데이터 전처리의 중요성전처리 결과가 분석 결과에 직접적인 영향 주기 때문에 전처리는 반복적으로 수행해야 함가장 많은 시간이 소요되는 단계가 데이터 수집과 전처리 단계.데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서로 진행된다.(2) 데이터 정제 (data Cleansing) 개념결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업(3) 데이터 정제 절차데이터 오류 원인 분석 : 원천 데이터의 오류로 인해 발생하거나 빅데이터 플로우의 문제로부터 발생데이터 정제 대상 선정 : 모든 데이터를 대상으로 정제 활동데이터 정제 방법 결정 : 오류 데이터를 삭제, 대체, 예측값으로 삽입데이터 오류 원인..
데이터 적재데이터 저장1. 데이터 적재(1) 데이터 적재 아키텍처 수립아키텍처 정의요구사항을 구현하기 위한 기반 기술을 정의하는 과정요구사항을 반영하여 하드웨어와 소프트웨어 아키텍처를 정의하는데, 이는 정보시스템 개발, 테스트, 이관을 위한 기술적 기반이 된다.빅데이터 적재 아키텍처 수립빅데이터 아키텍처 요구사항 정의장비 요구사항 정의서버 장비 규격 정의 : 주요 서버는 분산 처리를 위한 네임 노드, 데이터 노드, 데이터 분석을 위한 분석 서버, 원천 데이터 획득을 위한 수집 서버 등이 있음네트워크 장비 규격 정의 : 용도에 따라 라우터, 스위치 등으로 구성.스토리지 장비 규격 정의 : 용도에 따라 SAN, NAS등에 대한 도입 검토소프트웨어 도입 요구 사항 정의자체적으로 시스템을 구축하는 온프레미스의 ..
데이터 수집데이터 유형 및 속성 파악데이터 변환데이터 비식별화데이터 품질 검증데이터 처리 기술데이터 필터링 : 정형 데이터는 사전 테스트를 통해 오류 발견, 보정, 삭제, 중복 검사로 필터링 비정형 데이터는 데이터 마이닝에 자연어처리, 기계학습같은 추가기술로 오류 중복 필터링데이터 변환 : 다양한 형식으로 수집된 데이터를 분석이 쉽도록 일관성 있는 형식으로 변환데이터 정제 : 수집된 데이터의 불일치성 교정을 위해 결측값 처리, 노이즈(잡음)처리 기술 활용데이터 통합 : 출처가 다른 상호 연관성이 있는 데이터들을 하나로 결합하는 기술 (통합 시 연관 관계 분석으로 중복 데이터 검출 필요)데이터 축소 : 분석에 불필요한 데이터를 축소하여 고유한 특성은 손상되지 않도록 하고 분석 효율성 증대*결측값 Missi..

분석 로드맵 설정분석 문제 정의데이터 분석 방안1. 분석 로드맵 설정(1) 분석 로드맵 개념(2) 분석 로드맵 단계데이터 분석 체계 도입 : 로드맵 수립데이터 분석 유효성 검증 : 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행데이터 분석 확산 및 고도화 : 변화 관리, 시스템 구축*파일럿 : 이미 검증된 기술을 가지고 시험운영을 통해 미리 검토하고 문제점 여부를 점검하는 소규모 프로젝트2. 분석 문제 정의(1) 분석 문제의 의미문제 : 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정이 과정에서 제약조건을 파악하고, 잠재 원인을 진단하고 관련 데이터를 수집, 가공, 분석하는 활동 수행(2) 하향식 접근 방식개념 : 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는..

빅데이터 플랫폼빅데이터와 인공지능개인정보보호법 제도개인정보 활용1. 빅데이터 플랫폼(1) 빅데이터 플랫폼의 개념가치를 추출하기 위한 과정 (수집 → 저장 → 처리 → 분석 → 시각화 과정)을 규격화한 기술특화된 분석 (의료, 환경, 범죄, 자동차)을 지원하는 빅데이터 플랫폼이 발전하는 추세임(2) 빅데이터 플랫폼 구성 요소수집 : 원천 데이터의 정형/반정형/비정형 데이터 수집 ex) ETL , EAI, 크롤러저장 : 정형/반정형/비정형 데이터 저장 ex) RDBMS, NoSQL분석 : 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 ex) SNS 분석, 예측 분석활용 : 데이터 가시화 및 BI, Open API 연계 ex) 히스토그램, 인포그래픽 등*EAI_Enterprise Architecture Int..

빅데이터의 특징빅데이터의 가치데이터 산업의 이해빅데이터 조직 및 인력1. 빅데이터의 특징(1) 빅데이터 개념DIKW 피라미드Data : 객관적 사실. 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호Information : 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터Knowledge : 획득된 정보를 구조화해 유의미한 정보로 분류하고 일반화시킨 결과물. 정보를 기반해 찾아낸 규칙Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어. 상황이나 맥락에 맞게 규칙을 적용하는 요소(2) 빅데이터 특징3V (Volume, Variety, Velocity)→ 5V(Veracity, Value), 7V (Validity, Volatility)Volume..