Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 1단원] 1.1 빅데이터 개요 및 활용 PDF 제공

Data Analyst / PO 2024. 8. 11. 16:01
반응형
  1. 빅데이터의 특징
  2. 빅데이터의 가치
  3. 데이터 산업의 이해
  4. 빅데이터 조직 및 인력

[빅분기]1.1_빅데이터_개요_및_활용.pdf
0.30MB

1. 빅데이터의 특징

(1) 빅데이터 개념

  • DIKW 피라미드
  • Data : 객관적 사실. 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호
  • Information : 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터
  • Knowledge : 획득된 정보를 구조화해 유의미한 정보로 분류하고 일반화시킨 결과물. 정보를 기반해 찾아낸 규칙
  • Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어. 상황이나 맥락에 맞게 규칙을 적용하는 요소

(2) 빅데이터 특징

  • 3V (Volume, Variety, Velocity)→ 5V(Veracity, Value), 7V (Validity, Volatility)
  • Volume(규모) :
  • Variety(다양성) : 정형 데이터 뿐만 아니라 비정형, 반정형 데이터를 포함
  • Velocity(속도) : 빅데이터 수집, 분석, 활용 속도. 실시간성 정보의 생성 속도 증가에 따라 처리 속도 가속화 요구
  • Veracity(신뢰성) : 방대한 데이터에서 노이즈 및 오류 제거를 통해 데이터 품질과 신뢰성 제고 요구 (노이즈 : 입력되었다고 잘못 판단된 값)
  • Value(가치) : 비즈니스에 활용되어 유의미한 가치를 끌어낼 수 있는가
  • Validity(정확성) : 데이터가 가지는 유효성과 정확성
  • Volatility(휘발성) : 수집 대상 데이터가 의미가 있는 기간. 얼마나 오래 저장될 수 있고, 타당하여 오랫동안 쓰일 수 있을지에 관한 사항. 장기적인 관점에서 유용한 가치를 창출해야 함

(3) 빅데이터의 유형 - 데이터의 구조적 관점에서

  • 정형 : 정형화된 스키마 구조. DBMS 에 내용이 저장될 수 있는 구조. 고정된 필드(속성)에 저장된 일관성 있는 데이터 ex) 관계형 데이터베이스 (오라클, MS-SQL), 스프레드 시트
  • 반정형 : 메타 데이터나 데이터 스키마 정보를 포함하지만 값과 형식에서 일관성은 없는 데이터. 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조. 고정된 필드에 저장되어 있지는 않음. ex) XML, HTML, JSON, 웹 로그, 알람, 시스템 로그, RSS, 센서 데이터
  • 비정형 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터. 수집 데이터 각각이 데이터 객체로 구분. Crawler, API, RSS 등의 수집 기술을 활용 ex) 텍스트 문서, 이미지, 이진파일, 동영상 등

*Schema : 데이터베이스에서 자료의 구조, 표현 방법, 자료간의 관계를 형식 언어로 정의한 구조

(4) 데이터 지식 경영 - 핵심 이슈는 암묵지와 형식지의 상호작용에 있다.

  • 지식 구분
    • 암묵지(공통화, 내면화) : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로는 드러나지 않는 지식. ex) 수영
    • 형식지(표출화, 연결화) : 문서나 매뉴얼처럼 형상화된 지식. 전달과 공유가 용이. ex) 수험서
  • 데이터 지식경영 상호작용
    • 내면화 : 행동과 실천 교육 등을 통해 형식지가 개인의 암묵지로 체화되는 단계
    • 공통화 : 타인과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
    • 표출화 : 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 가공, 분석하는 과정
    • 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정

2. 빅데이터의 가치

(1) 빅데이터의 가치

  • 경제적 자산 : 새로운 기회를 창출하고 위험을 해결해 사회경제발전의 엔진 역할을 수행
  • 불확실성 제거 : 현실 데이터의 패턴 분석과 미래 전망. 여러가지 가능성에 대한 시나리오 시뮬레이션
  • 리스크 감소 : 패턴분석을 통해 위험 징후 및 이상 신호 포착, 사전에 이슈 인지 및 분석하고 빠른 대응
  • 스마트한 경쟁력 : 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 기능. 개인화, 지능화 서비스 제공 확대. 트렌드 변화 분석을 통한 제품 경쟁력 확보
  • 타 분야 융합 : 융합을 통한 가치 창출, 새로운 융합 시장 창출.

*패턴 분석(Pattern) : 데이터들에서 나타나는 규칙적인 특징들의 집합. 미가공된 데이터들에서 규칙성을 자동으로 찾아내고 규칙성에 따라 카테고리화 후 분석.

*상황 인지(Context Awareness) : 현실공간와 가상공간을 연결해 가상공간에서 현실의 상황을 정보화하고 이를 활용해 사용자 중심의 지능화된 서비스를 제공하는 기술. + 사용자의 직무, 감정, 위치를 인지해 사용자가 직접 입력하지 않아도 컴퓨팅이 알아서 해주는 것을 말함.

(2) 빅데이터 가치 산정이 어려운 이유

  • 데이터 활용 방식의 다양화 :
  • 새로운 가치 창출 : 기존에 없던 가치 창출
  • 분석 기술의 급속한 발전 : ex)텍스트 마이닝을 통한 SNS 분석

*텍스트 마이닝 : 대량의 텍스트 데이터로부터 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법

(3) 빅데이터 영향

  • 기업
    • 혁신 수단 제공
    • 경쟁력 강화
    • 생산성 향상 : 원가절감, 제품 차별화, 기업 활동의 투명성 제고 등을 활용해 경쟁 우위 확보
  • 정부
    • 환경 탐색 : 날씨 교통
    • 상황 분석 : 사회관계망 분석, 시스템 다이내믹스와 같은 분석 방식을 통해 미래 의제 도출
    • 미래 대응 가능
  • 개인
    • 목적에 따른 활용

*사회관계망 분석(SNA_Social Network Analysis) : 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법

*시스템 다이내믹스(System Dynamics) : 사업이나 사회 시스템과 같은 복잡한 피드백 시스템을 연구하고 관리하는 방법

(4) 빅데이터 위기 요인 및 통제 방안

  • 위기 요인
    • 사생활 침해
    • 책임 원칙 훼손: 예측 알고리즘의 희생양 (범죄 알고리즘에 의해 범행 저지르기 전에도 체포)
    • 데이터 오용
  • 위기 요인에 대한 통제 방안
    • 알고리즘에 대한 접근 허용 : 예측 알고리즘의 부당함을 반증할 수 있는 '알고리즘에 대한 접근권'을 제공해 데이터 오용 위기 요소에 대응. 알고리즈미스트
    • 책임의 강조 :
    • 결과 기반의 책임 적용

*알고리즈미스트 : 알고리즘에 의해 부당한 피해를 입은 사람을 구제하고 피해를 막는 역할을 하는 전문 인력

3. 빅데이터 산업의 이해

(1) 빅데이터 산업 개요

  • 클라우팅 컴퓨팅 기술 발전으로 데이터 처리 비용이 급격하게 감소
    • 클라우드(인터넷)을 통해 다수의 사용자들에게 가상화된 컴퓨터의 시스템 리소스를 요구하는 즉시 '서비스'로 제공하는 컴퓨팅 기술.
    • 자신의 컴퓨터가 아닌 클라우드(인터넷)에 연결된 다른 컴퓨터로 처리하는 기술을 의미함

(2) 산업별 빅데이터 활용

  • 의료 건강
  • 과학기술
  • 정보보안
  • 제조공정
  • 소비거래
  • 교통물류

4. 빅데이터 조직 및 인력

(1) 빅데이터 조직 설계

  • 업무 프로세스
    • 도입 :
    • 구축 : 요구사항을 분석, 설게, 구현, 테스트
    • 운영 : 빅데이터 플랫폼 운영, 빅데이터 및 빅데이터 분석 모델 운영, 빅데이터 운영 조직, 빅데이터 운영 예산 고려
  • 조직 설계의 절차
    • 경영 전략 및 사업 전략 수립, 전제 조직 구조 설계, 핵심 업무 프로세스 검토, 팀 조직 구조 설계, 핵심 인력 선발, 역할과 책임 할당, 성과 측정 기준 수립, 역량 교육 및 훈련
  • 조직 구조 설계의 요소
    • 업무 활동 (수직 업무 활동, 수평 업무 활동)
    • 부서화
    • 보고 체계
  • 조직 구조 유형
    • 집중 구조 : 별도 부서
    • 기능 구조 : 각 부서마다
    • 분산 구조
  • 조직 구조의 설계 특정
    • 공식화, 분업화, 직무 전문화, 통제 범위, 의사 소통 및 조정

(2) 조직 역량

  • 역량 모델링 - 데이터 사이언티스트의 요구 역량
    • 소프트 스킬
    • 분석의 통찰력 : 논리적 비판 능력, 창의적 사고력, 호기심
    • 여러 분야의 협력 능력 : 커뮤니케이션 능력
    • 설득력 있는 전달력 : 스토리텔링 능력, 비주얼라이제이션
    • 하드 스킬
    • 빅데이터 관련 이론적 지식 : 빅데이터 관련 기법 및 다양한 방법론 습득
    • 분석 기술의 숙련도 : 목적에 맞는 최적 분석 설계, 노하우 축적
  • 역량 모델 개발 절차
    • 조직의 미션/성과목표/CSF 검토
    • 조직 구성원의 행동 특성 도출 : 우수 성과자의 행동 특성 도출
    • 조직 구성원의 역량 도출 : 행동 특성을 기반으로 직무별 역량 모델 생성
    • 조직 구성의 역량 모델 확정 :

*CSF (Critical Success Factors) : 핵심 성공 요인 : 목표 성취를 위해 필요한 요소를 뜻하는 용어. 기업 경쟁력 향상을 위한 핵심 내부 역량. 목표 달성 위한 필수요소

  • 역량 교육 체계 설계 절차
    • 요구사항 분석 → 직무별 역량 모델 검토 → 역량 차이 분석 → 직무 역량 매트릭스 작성 → 직무별 역량 교육 체계 설계

(3) 조직성과 평가

  • 조직성과 평가 절차
    • 목표 설정
    • 모니터링
    • 목표 조정
    • 평가 실시
    • 결과의 피드백
  • 균형 성과표 BSC : Balanced Score Card 4가지 관점
    • 재무 : 조직의 성과를 보여줌
    • 고객 : 고객 지향적 프로세스를 만들어나가기 위해
    • 내부 프로세스 : 성과 극대화를 위해 기업 핵심 프로세스 및 역량을 규명
    • 학습 성장 : BSC에서 가장 미래지향적인 관점. 회사의 장기적인 잠재력에 대한 투자가 성장에 얼마나 영향이 있을지 파악
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형