티스토리 뷰

반응형
  1. 시공간 데이터 탐색
  2. 다변량 데이터 탐색
  3. 비정형 데이터 탐색

[빅분기2단원]2.2 고급 데이터 탐색.pdf
0.24MB


1. 시공간 데이터 탐색

(1) 시공간 데이터

  • 시공간 데이터의 특징
    • 이산적 변화 : 데이터 수집 주기가 일정하지 않은 데이터. 시간의 변화에 따라 데이터가 추가됨
    • 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용해 연속적으로 표현. 함수 이용
  • 시공간 데이터의 타입
    • 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입
    • 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구정
    • 폴리곤 타입 : n개(n≥3)의 노드와 n개의 세그먼트로 구성
    • 폴리라인 타입 : n개(n≥3)의 노드와 n-1개의 세그먼트로 구성

(2) 시공간 데이터 탐색 절차

  • 주소를 행정구역으로 변환 : 엑셀
    • split : split("a,bc",",")
    • find : 문자열에서 가장 왼쪽으로부터 몇번째에 있는지를 숫자를 반환. find(",","a,b")
    • left : 왼쪽부터 정해진 개수만큼 문자열 반환 left("abc",1)
    • mid : mind("abc",시작위치,개수)
  • 주소를 좌표계로 변환
    • 시공간 데이터의 주소를 이용해 위도와 경도로 변환한다
    • 지오코딩서비스를 이용해 좌표계로 변환한다. -입력 주소의 위도경도 반환해주는 시스템
  • 행정구역 및 좌표계를 지도에 표시
    • 크로플레스 지도
      • 등치지역도 ; 데이터 수치에 따라 색상으로 영역을 색칠해 표현하는 방법.
      • 범주형 데이터-서로다른 색, 연속형 데이터-명도
    • 카토그램
      • 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되는 지도. 변량비례도.
      • 데이터값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨. 데이터값의 크기를 직관적으로 인지할 수 있다.
      • 지도의 형태를 왜곡시킴. 데이터 지각의 왜곡을 방지.
    • 버블 플롯맵
      • 버블차트에 위도와 경도 정보를 적용해 좌표를 원으로 시각화한 지도

2. 다변량 데이터 탐색

(1) 다변량 데이터

  • 변량의 개념 Variance
    • 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 것.
    • 변량에는 크게 일변량, 이변량, 다변량으로 구분함
  • 변량 데이터의 유형 : 종속변수(Y)의 수에 의해 결정됨
    • 일변량 데이터 : 단변량 자료. 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료
    • 이변량 데이터 : 각 단위에 대해 두 개의 특성을 측정해 얻어진 두 개의 변수에 대한 자료
    • 다변량 데이터 : 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료. 이변량 데이터도 다변량 데이터임.

(2) 변량 데이터 탐색

  • 일변량 데이터 탐색 ; 기술통계량(평균, 분산, 표준편차), 그래프 통계량(히스토그램, 상자 그림) 2개 종류.
  • 이변량 데이터 탐색 ; 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함. 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상임
  • 다변량 데이터 탐색 ; 분석 시행 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함

(3) 다변량 데이터 탐색 도구

  • 삼점도 행렬 : 두 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현함.
    • 그림행렬 ; 변수가 여러개 있을 때 변수쌍 간의 관계를 볼 때 효율적
    • 산점도 행렬 ; 개별 Y대 개별 X . x축 y축 변수를 사용해 가능한 각 xy조합의 그래프를 만듬. x축 : 고객, 기간, y축 : 수익률, 매출액
  • 별 그림

3. 비정형 데이터 탐색

(1) Unstructured Data 개념 : 이미지, 영상, 텍스트처럼 형태와 구조가 구조화되지 않은 데이터

(2) 비정형 데이터의 유형

  • 비정형 데이터
    • 텍스트 ; 텍스트 덩어리를 정형 데이터로 변환한 뒤 텍스트 분석을 수행
    • 이미지 ; 한 픽셀마다 수치로 변환하는 과정을 거쳐 이미지 분석을 수행 . 딥러닝 기법인 CNN 사용.
  • 반정형 데이터
    • XML : 웹페이지를 만드는 HTML을 개선해 만든 마크업 언어.
    • JSON : 웹상에서 자료를 주고받을 때 사람이 읽을 수 있는 데이터 포맷.
    • HTML : 링크, 인용 등을 이용해 구조적 문서를 만드는 방법

(3) 비정형 데이터의 탐색 방법

  • 텍스트 탐색 방법 : 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
  • 동영상, 이미지 탐색 방법 ; 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용해 탐색
  • XML, JSON, HTML 탐색 방법 : 각각의 파서를 이용해 데이터를 파싱 후 탐색

(4) 비정형 데이터 탐색 플랫폼 구성 예시

비정형 데이터는 다양한 오픈소스를 활용해 플랫폼을 구성한 후 탐색할 수 있다.

  • HDFS : 마스터/슬레이브 구조를 가지는 분산형 파일 시스템
  • 맵리듀스 : 맵 함수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를 계산하는 데이터 탐색 엔진
  • 주키퍼 : 분산 환경에서 노드 간의 정보를 공유, 락 , 이벤트 등 보조 기능을 제공하는 프레임워크
  • Avro : 이기종 간 데이터 타입을 교환할 수 있는 체계를 제공하는 기술
  • Hive : SQL 과 유사한 구조를 가지고, 데이터를 요약하고 쿼리를 수행해 분석할 수 있는 데이터 웨어하우징 솔루션
  • Pig : 대규모 데이터 세트에 대한 분석을 위한 쿼리 인터페이스
  • HCatalog : 하둡 데이터용 테이블 및 스토리지 관리 서비스
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함