[빅데이터 분석기사 1단원] 2.1 분석 방안 수립 Pdf 제공
- 분석 로드맵 설정
- 분석 문제 정의
- 데이터 분석 방안
1. 분석 로드맵 설정
(1) 분석 로드맵 개념
(2) 분석 로드맵 단계
- 데이터 분석 체계 도입 : 로드맵 수립
- 데이터 분석 유효성 검증 : 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행
- 데이터 분석 확산 및 고도화 : 변화 관리, 시스템 구축
*파일럿 : 이미 검증된 기술을 가지고 시험운영을 통해 미리 검토하고 문제점 여부를 점검하는 소규모 프로젝트
2. 분석 문제 정의
(1) 분석 문제의 의미
- 문제 : 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정
- 이 과정에서 제약조건을 파악하고, 잠재 원인을 진단하고 관련 데이터를 수집, 가공, 분석하는 활동 수행
(2) 하향식 접근 방식
- 개념 : 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
- 하향식 분석 과제 과제 발굴 절차 : 문제 탐색 문제 정의 해결 방안 탐색 : 분석 기법 및 시스템 확보/미확보 타당성 검토 : 경제적 타당성, 데이터 타당성, 운영적 타당성 선택
(3) 상향식 접근 방식
- 정의 : 문제 정의 자체가 어려운 경우. 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 객관적인 데이터 자체를 관찰하고 실제 행동에 옮겨 대상을 이해하는 방식
- 상향식 분석 접근 방식 특징 : 비지도 학습 방법 사용 - 데이터 자체의 결합, 연관, 유사성을 중심으로 분석. 프로토타이핑 접근법 사용 - 시행착오를 통한 문제 해결을 위해 사용. 가설 생성, 디자인에 대한 실험, 실제 환경에서 테스트, 테스트 결과에서 통찰 도출 및 가설 확인 프로세스
*비지도 학습 Unsupervised Learning : 입력데이터에 대한 정답인 레이블 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법
*디자인 사고 : 확산적 사고와 수렴적 사고의 반복을 통해 과제를 발굴하는 접근 방법
(4) 대상별 분석 기획 유형
분석 방법 (열) / 분석 대상 (행) | Known | Un-Known |
Known | Optimization | Insight |
Un-Known | Solution | Discovery |
- 대상별 분석 기획 유형
- 최적화 :
- 솔루션
- 통찰
- 발견
유스케이스 탐색
(5) 데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준
- 시급성 : Value
- 전략적 중요도
- 난이도 : Volume, Variety, Velocity(속도)
- 데이터 획득/저장/가공 비용
- 분석 적용 비용을 고려한 난이도
- 분석 수준 : 범위, 적용 비용 측면에서 바로 적용하기 쉬운지
3. 데이터 분석 방안
(1) 빅데이터 분석 방법론 개념
(2) 빅데이터 분석 방법론 계층
- 단계 Phase : 프로세스 그룹을 통해 완성된 단계별 산출물이 생성. 기준선으로 설정관리 + 버전관리로 통제
- 태스크 Task : 단계를 구성하는 단위 활동. 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
- 스텝 Step : 입력 자료(Input), 처리 도구(Process&tool) , 출력 자료로(output) 구성된 단위 프로세스.
*Baseline 기준선 : 소프트웨어 개발의 특정 시점에서 형상 항목이 소프트웨어 개발에 하나의 완전한 산출물로써 쓰여질 수 있는 상태의 집합
*Configuration Management 버전관리 : 동일한 소스 코드에 대한 여러 버전을 관리하는 기법
(3) 빅데이터 분석 방법론의 분석 절차
- 분석 기획 > 데이터 준비 > 데이터 분석 > 시스템 구현 > 평가 및 전개
- 분석 기획 : 프로젝트 위험 계획 수립 - 회피, 전가, 완화, 수용
- 데이터 준비 : 데이터 스토어 설계, 데이터 수집(크롤링, 배치처리), API, ETL로 수집 프로세스 진행
*데이터 스토어 : 디비에 들어가는 데이터 이외에 단순 파일, 이메일 등의 스토어 타입들을 포함하는 저장소
*배치 처리 : 실시간 작업의 반대 개념. 일련의 작업들을 하나의 작업 단위로 묶어서 일괄로 처리하는 방식.
*ETL (Extract, Transform, Load) : 수집 대상 데이터를 추출, 가공, 하여 저장.
- 데이터 분석 : 탐색적 분석, 모델링, 모델 평가 및 검증
- 시스템 구현
- 평가 및 전개
(4) 분석 방법론 유형
- KDD 분석 방법론 (Knowledge Discovery in Databases) 절차 Selection > Preprocessing > Transformation > Data Mining > Interpretation / Evaluation
- 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
- 데이터 세트 선택 : 데이터 마이닝에 필요한 목표 데이터 구성
- 데이터 전처리 : 노이즈, 이상값, 결측값 등을 제거. 추가로 요구되는 데이터 세트가 있을 때 데이터 세트 선택, 프로세스 재실행
- 데이터 변환 : 변수를 찾고 데이터 차원 축소.
- 데이터 마이닝 : 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업
- 데이터 마이닝 결과 평가
*차원 축소 Dimension Reduction : 목적에 따라 데이터 양을 줄이는 기법
*데이터 마이닝 : 대규모 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법.
- CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)
- CRISP-DM 분석 방법론의 구성
- 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계
- Phase > Generic Tasks > Specialized Tasks > Process Instances 단계 : 최상위 레벨
- 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위. 각 단계는 일반화 태스크 포함
- 세분화 태스크 : 일반화 태스크를 구체적으로 수행하는 레벨.
- 프로세스 실행 : 데이터 마이닝을 위한 구체적인 실행
- CRISP-DM 분석 방법론의 분석 절차
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
- SEMMA 분석 방법론 (Sampling Exploration Modification Modeling Assessment)
- 통계 중심의 5단계 방법론.
- 샘플링
- 탐색
- 수정
- 모델링 : 신경망, 의사결정나무, 로지스틱 회귀분석, 전통적 통계를 이용한 모델 구축. + 데이터의 숨겨진 패턴 발견
- 검증
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.