[빅데이터 분석기사 1단원] 1.1 빅데이터 개요 및 활용 PDF 제공
- 빅데이터의 특징
- 빅데이터의 가치
- 데이터 산업의 이해
- 빅데이터 조직 및 인력
1. 빅데이터의 특징
(1) 빅데이터 개념
- DIKW 피라미드
- Data : 객관적 사실. 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호
- Information : 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터
- Knowledge : 획득된 정보를 구조화해 유의미한 정보로 분류하고 일반화시킨 결과물. 정보를 기반해 찾아낸 규칙
- Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어. 상황이나 맥락에 맞게 규칙을 적용하는 요소
(2) 빅데이터 특징
- 3V (Volume, Variety, Velocity)→ 5V(Veracity, Value), 7V (Validity, Volatility)
- Volume(규모) :
- Variety(다양성) : 정형 데이터 뿐만 아니라 비정형, 반정형 데이터를 포함
- Velocity(속도) : 빅데이터 수집, 분석, 활용 속도. 실시간성 정보의 생성 속도 증가에 따라 처리 속도 가속화 요구
- Veracity(신뢰성) : 방대한 데이터에서 노이즈 및 오류 제거를 통해 데이터 품질과 신뢰성 제고 요구 (노이즈 : 입력되었다고 잘못 판단된 값)
- Value(가치) : 비즈니스에 활용되어 유의미한 가치를 끌어낼 수 있는가
- Validity(정확성) : 데이터가 가지는 유효성과 정확성
- Volatility(휘발성) : 수집 대상 데이터가 의미가 있는 기간. 얼마나 오래 저장될 수 있고, 타당하여 오랫동안 쓰일 수 있을지에 관한 사항. 장기적인 관점에서 유용한 가치를 창출해야 함
(3) 빅데이터의 유형 - 데이터의 구조적 관점에서
- 정형 : 정형화된 스키마 구조. DBMS 에 내용이 저장될 수 있는 구조. 고정된 필드(속성)에 저장된 일관성 있는 데이터 ex) 관계형 데이터베이스 (오라클, MS-SQL), 스프레드 시트
- 반정형 : 메타 데이터나 데이터 스키마 정보를 포함하지만 값과 형식에서 일관성은 없는 데이터. 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조. 고정된 필드에 저장되어 있지는 않음. ex) XML, HTML, JSON, 웹 로그, 알람, 시스템 로그, RSS, 센서 데이터
- 비정형 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터. 수집 데이터 각각이 데이터 객체로 구분. Crawler, API, RSS 등의 수집 기술을 활용 ex) 텍스트 문서, 이미지, 이진파일, 동영상 등
*Schema : 데이터베이스에서 자료의 구조, 표현 방법, 자료간의 관계를 형식 언어로 정의한 구조
(4) 데이터 지식 경영 - 핵심 이슈는 암묵지와 형식지의 상호작용에 있다.
- 지식 구분
- 암묵지(공통화, 내면화) : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로는 드러나지 않는 지식. ex) 수영
- 형식지(표출화, 연결화) : 문서나 매뉴얼처럼 형상화된 지식. 전달과 공유가 용이. ex) 수험서
- 데이터 지식경영 상호작용
- 내면화 : 행동과 실천 교육 등을 통해 형식지가 개인의 암묵지로 체화되는 단계
- 공통화 : 타인과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
- 표출화 : 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 가공, 분석하는 과정
- 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정
2. 빅데이터의 가치
(1) 빅데이터의 가치
- 경제적 자산 : 새로운 기회를 창출하고 위험을 해결해 사회경제발전의 엔진 역할을 수행
- 불확실성 제거 : 현실 데이터의 패턴 분석과 미래 전망. 여러가지 가능성에 대한 시나리오 시뮬레이션
- 리스크 감소 : 패턴분석을 통해 위험 징후 및 이상 신호 포착, 사전에 이슈 인지 및 분석하고 빠른 대응
- 스마트한 경쟁력 : 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 기능. 개인화, 지능화 서비스 제공 확대. 트렌드 변화 분석을 통한 제품 경쟁력 확보
- 타 분야 융합 : 융합을 통한 가치 창출, 새로운 융합 시장 창출.
*패턴 분석(Pattern) : 데이터들에서 나타나는 규칙적인 특징들의 집합. 미가공된 데이터들에서 규칙성을 자동으로 찾아내고 규칙성에 따라 카테고리화 후 분석.
*상황 인지(Context Awareness) : 현실공간와 가상공간을 연결해 가상공간에서 현실의 상황을 정보화하고 이를 활용해 사용자 중심의 지능화된 서비스를 제공하는 기술. + 사용자의 직무, 감정, 위치를 인지해 사용자가 직접 입력하지 않아도 컴퓨팅이 알아서 해주는 것을 말함.
(2) 빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식의 다양화 :
- 새로운 가치 창출 : 기존에 없던 가치 창출
- 분석 기술의 급속한 발전 : ex)텍스트 마이닝을 통한 SNS 분석
*텍스트 마이닝 : 대량의 텍스트 데이터로부터 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법
(3) 빅데이터 영향
- 기업
- 혁신 수단 제공
- 경쟁력 강화
- 생산성 향상 : 원가절감, 제품 차별화, 기업 활동의 투명성 제고 등을 활용해 경쟁 우위 확보
- 정부
- 환경 탐색 : 날씨 교통
- 상황 분석 : 사회관계망 분석, 시스템 다이내믹스와 같은 분석 방식을 통해 미래 의제 도출
- 미래 대응 가능
- 개인
- 목적에 따른 활용
*사회관계망 분석(SNA_Social Network Analysis) : 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법
*시스템 다이내믹스(System Dynamics) : 사업이나 사회 시스템과 같은 복잡한 피드백 시스템을 연구하고 관리하는 방법
(4) 빅데이터 위기 요인 및 통제 방안
- 위기 요인
- 사생활 침해
- 책임 원칙 훼손: 예측 알고리즘의 희생양 (범죄 알고리즘에 의해 범행 저지르기 전에도 체포)
- 데이터 오용
- 위기 요인에 대한 통제 방안
- 알고리즘에 대한 접근 허용 : 예측 알고리즘의 부당함을 반증할 수 있는 '알고리즘에 대한 접근권'을 제공해 데이터 오용 위기 요소에 대응. 알고리즈미스트
- 책임의 강조 :
- 결과 기반의 책임 적용
*알고리즈미스트 : 알고리즘에 의해 부당한 피해를 입은 사람을 구제하고 피해를 막는 역할을 하는 전문 인력
3. 빅데이터 산업의 이해
(1) 빅데이터 산업 개요
- 클라우팅 컴퓨팅 기술 발전으로 데이터 처리 비용이 급격하게 감소
- 클라우드(인터넷)을 통해 다수의 사용자들에게 가상화된 컴퓨터의 시스템 리소스를 요구하는 즉시 '서비스'로 제공하는 컴퓨팅 기술.
- 자신의 컴퓨터가 아닌 클라우드(인터넷)에 연결된 다른 컴퓨터로 처리하는 기술을 의미함
(2) 산업별 빅데이터 활용
- 의료 건강
- 과학기술
- 정보보안
- 제조공정
- 소비거래
- 교통물류
4. 빅데이터 조직 및 인력
(1) 빅데이터 조직 설계
- 업무 프로세스
- 도입 :
- 구축 : 요구사항을 분석, 설게, 구현, 테스트
- 운영 : 빅데이터 플랫폼 운영, 빅데이터 및 빅데이터 분석 모델 운영, 빅데이터 운영 조직, 빅데이터 운영 예산 고려
- 조직 설계의 절차
- 경영 전략 및 사업 전략 수립, 전제 조직 구조 설계, 핵심 업무 프로세스 검토, 팀 조직 구조 설계, 핵심 인력 선발, 역할과 책임 할당, 성과 측정 기준 수립, 역량 교육 및 훈련
- 조직 구조 설계의 요소
- 업무 활동 (수직 업무 활동, 수평 업무 활동)
- 부서화
- 보고 체계
- 조직 구조 유형
- 집중 구조 : 별도 부서
- 기능 구조 : 각 부서마다
- 분산 구조
- 조직 구조의 설계 특정
- 공식화, 분업화, 직무 전문화, 통제 범위, 의사 소통 및 조정
(2) 조직 역량
- 역량 모델링 - 데이터 사이언티스트의 요구 역량
- 소프트 스킬
- 분석의 통찰력 : 논리적 비판 능력, 창의적 사고력, 호기심
- 여러 분야의 협력 능력 : 커뮤니케이션 능력
- 설득력 있는 전달력 : 스토리텔링 능력, 비주얼라이제이션
- 하드 스킬
- 빅데이터 관련 이론적 지식 : 빅데이터 관련 기법 및 다양한 방법론 습득
- 분석 기술의 숙련도 : 목적에 맞는 최적 분석 설계, 노하우 축적
- 역량 모델 개발 절차
- 조직의 미션/성과목표/CSF 검토
- 조직 구성원의 행동 특성 도출 : 우수 성과자의 행동 특성 도출
- 조직 구성원의 역량 도출 : 행동 특성을 기반으로 직무별 역량 모델 생성
- 조직 구성의 역량 모델 확정 :
*CSF (Critical Success Factors) : 핵심 성공 요인 : 목표 성취를 위해 필요한 요소를 뜻하는 용어. 기업 경쟁력 향상을 위한 핵심 내부 역량. 목표 달성 위한 필수요소
- 역량 교육 체계 설계 절차
- 요구사항 분석 → 직무별 역량 모델 검토 → 역량 차이 분석 → 직무 역량 매트릭스 작성 → 직무별 역량 교육 체계 설계
(3) 조직성과 평가
- 조직성과 평가 절차
- 목표 설정
- 모니터링
- 목표 조정
- 평가 실시
- 결과의 피드백
- 균형 성과표 BSC : Balanced Score Card 4가지 관점
- 재무 : 조직의 성과를 보여줌
- 고객 : 고객 지향적 프로세스를 만들어나가기 위해
- 내부 프로세스 : 성과 극대화를 위해 기업 핵심 프로세스 및 역량을 규명
- 학습 성장 : BSC에서 가장 미래지향적인 관점. 회사의 장기적인 잠재력에 대한 투자가 성장에 얼마나 영향이 있을지 파악
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.