Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 1단원] 2.1 분석 방안 수립 Pdf 제공

Data Analyst / PO 2024. 8. 11. 16:38
반응형
  1. 분석 로드맵 설정
  2. 분석 문제 정의
  3. 데이터 분석 방안

2 1 분석 방안 수립 5288a35d50924bac99c20749428c304c.pdf
0.25MB


1. 분석 로드맵 설정

(1) 분석 로드맵 개념

(2) 분석 로드맵 단계

  • 데이터 분석 체계 도입 : 로드맵 수립
  • 데이터 분석 유효성 검증 : 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행
  • 데이터 분석 확산 및 고도화 : 변화 관리, 시스템 구축

*파일럿 : 이미 검증된 기술을 가지고 시험운영을 통해 미리 검토하고 문제점 여부를 점검하는 소규모 프로젝트

2. 분석 문제 정의

(1) 분석 문제의 의미

  • 문제 : 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정
  • 이 과정에서 제약조건을 파악하고, 잠재 원인을 진단하고 관련 데이터를 수집, 가공, 분석하는 활동 수행

(2) 하향식 접근 방식

  • 개념 : 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
  • 하향식 분석 과제 과제 발굴 절차 : 문제 탐색 문제 정의 해결 방안 탐색 : 분석 기법 및 시스템 확보/미확보 타당성 검토 : 경제적 타당성, 데이터 타당성, 운영적 타당성 선택

(3) 상향식 접근 방식

  • 정의 : 문제 정의 자체가 어려운 경우. 데이터를 기반으로 문제를 지속적으로 개선하는 방식
  • 객관적인 데이터 자체를 관찰하고 실제 행동에 옮겨 대상을 이해하는 방식
  • 상향식 분석 접근 방식 특징 : 비지도 학습 방법 사용 - 데이터 자체의 결합, 연관, 유사성을 중심으로 분석. 프로토타이핑 접근법 사용 - 시행착오를 통한 문제 해결을 위해 사용. 가설 생성, 디자인에 대한 실험, 실제 환경에서 테스트, 테스트 결과에서 통찰 도출 및 가설 확인 프로세스

*비지도 학습 Unsupervised Learning : 입력데이터에 대한 정답인 레이블 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법

*디자인 사고 : 확산적 사고와 수렴적 사고의 반복을 통해 과제를 발굴하는 접근 방법

(4) 대상별 분석 기획 유형

분석 방법 (열) / 분석 대상 (행) Known Un-Known
Known  Optimization Insight
Un-Known Solution Discovery
  • 대상별 분석 기획 유형
  • 최적화 :
  • 솔루션
  • 통찰
  • 발견

유스케이스 탐색

 

(5) 데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준

  • 시급성 : Value
  • 전략적 중요도
  • 난이도 : Volume, Variety, Velocity(속도)
  • 데이터 획득/저장/가공 비용
  • 분석 적용 비용을 고려한 난이도
  • 분석 수준 : 범위, 적용 비용 측면에서 바로 적용하기 쉬운지

3. 데이터 분석 방안

(1) 빅데이터 분석 방법론 개념

(2) 빅데이터 분석 방법론 계층

  • 단계 Phase : 프로세스 그룹을 통해 완성된 단계별 산출물이 생성. 기준선으로 설정관리 + 버전관리로 통제
  • 태스크 Task : 단계를 구성하는 단위 활동. 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
  • 스텝 Step : 입력 자료(Input), 처리 도구(Process&tool) , 출력 자료로(output) 구성된 단위 프로세스.

*Baseline 기준선 : 소프트웨어 개발의 특정 시점에서 형상 항목이 소프트웨어 개발에 하나의 완전한 산출물로써 쓰여질 수 있는 상태의 집합

*Configuration Management 버전관리 : 동일한 소스 코드에 대한 여러 버전을 관리하는 기법

(3) 빅데이터 분석 방법론의 분석 절차

  • 분석 기획 > 데이터 준비 > 데이터 분석 > 시스템 구현 > 평가 및 전개
  • 분석 기획 : 프로젝트 위험 계획 수립 - 회피, 전가, 완화, 수용
  • 데이터 준비 : 데이터 스토어 설계, 데이터 수집(크롤링, 배치처리), API, ETL로 수집 프로세스 진행

*데이터 스토어 : 디비에 들어가는 데이터 이외에 단순 파일, 이메일 등의 스토어 타입들을 포함하는 저장소

*배치 처리 : 실시간 작업의 반대 개념. 일련의 작업들을 하나의 작업 단위로 묶어서 일괄로 처리하는 방식.

*ETL (Extract, Transform, Load) : 수집 대상 데이터를 추출, 가공, 하여 저장.

  • 데이터 분석 : 탐색적 분석, 모델링, 모델 평가 및 검증
  • 시스템 구현
  • 평가 및 전개

(4) 분석 방법론 유형

  • KDD 분석 방법론 (Knowledge Discovery in Databases) 절차 Selection > Preprocessing > Transformation > Data Mining > Interpretation / Evaluation
  • 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
  • 데이터 세트 선택 : 데이터 마이닝에 필요한 목표 데이터 구성
  • 데이터 전처리 : 노이즈, 이상값, 결측값 등을 제거. 추가로 요구되는 데이터 세트가 있을 때 데이터 세트 선택, 프로세스 재실행
  • 데이터 변환 : 변수를 찾고 데이터 차원 축소.
  • 데이터 마이닝 : 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측 작업
  • 데이터 마이닝 결과 평가

*차원 축소 Dimension Reduction : 목적에 따라 데이터 양을 줄이는 기법

*데이터 마이닝 : 대규모 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법.

  • CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)
  • CRISP-DM 분석 방법론의 구성
  • 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계
  • Phase > Generic Tasks > Specialized Tasks > Process Instances 단계 : 최상위 레벨
  • 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위. 각 단계는 일반화 태스크 포함
  • 세분화 태스크 : 일반화 태스크를 구체적으로 수행하는 레벨.
  • 프로세스 실행 : 데이터 마이닝을 위한 구체적인 실행
  • CRISP-DM 분석 방법론의 분석 절차
    • 업무 이해
    • 데이터 이해
    • 데이터 준비
    • 모델링
    • 평가
    • 전개
  • SEMMA 분석 방법론 (Sampling Exploration Modification Modeling Assessment)
    • 통계 중심의 5단계 방법론.
    • 샘플링
    • 탐색
    • 수정
    • 모델링 : 신경망, 의사결정나무, 로지스틱 회귀분석, 전통적 통계를 이용한 모델 구축. + 데이터의 숨겨진 패턴 발견
    • 검증
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형