티스토리 뷰
반응형
- 시공간 데이터 탐색
- 다변량 데이터 탐색
- 비정형 데이터 탐색
[빅분기2단원]2.2 고급 데이터 탐색.pdf
0.24MB
1. 시공간 데이터 탐색
(1) 시공간 데이터
- 시공간 데이터의 특징
- 이산적 변화 : 데이터 수집 주기가 일정하지 않은 데이터. 시간의 변화에 따라 데이터가 추가됨
- 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용해 연속적으로 표현. 함수 이용
- 시공간 데이터의 타입
- 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입
- 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구정
- 폴리곤 타입 : n개(n≥3)의 노드와 n개의 세그먼트로 구성
- 폴리라인 타입 : n개(n≥3)의 노드와 n-1개의 세그먼트로 구성
(2) 시공간 데이터 탐색 절차
- 주소를 행정구역으로 변환 : 엑셀
- split : split("a,bc",",")
- find : 문자열에서 가장 왼쪽으로부터 몇번째에 있는지를 숫자를 반환. find(",","a,b")
- left : 왼쪽부터 정해진 개수만큼 문자열 반환 left("abc",1)
- mid : mind("abc",시작위치,개수)
- 주소를 좌표계로 변환
- 시공간 데이터의 주소를 이용해 위도와 경도로 변환한다
- 지오코딩서비스를 이용해 좌표계로 변환한다. -입력 주소의 위도경도 반환해주는 시스템
- 행정구역 및 좌표계를 지도에 표시
- 크로플레스 지도
- 등치지역도 ; 데이터 수치에 따라 색상으로 영역을 색칠해 표현하는 방법.
- 범주형 데이터-서로다른 색, 연속형 데이터-명도
- 카토그램
- 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되는 지도. 변량비례도.
- 데이터값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨. 데이터값의 크기를 직관적으로 인지할 수 있다.
- 지도의 형태를 왜곡시킴. 데이터 지각의 왜곡을 방지.
- 버블 플롯맵
- 버블차트에 위도와 경도 정보를 적용해 좌표를 원으로 시각화한 지도
- 크로플레스 지도
2. 다변량 데이터 탐색
(1) 다변량 데이터
- 변량의 개념 Variance
- 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 것.
- 변량에는 크게 일변량, 이변량, 다변량으로 구분함
- 변량 데이터의 유형 : 종속변수(Y)의 수에 의해 결정됨
- 일변량 데이터 : 단변량 자료. 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료
- 이변량 데이터 : 각 단위에 대해 두 개의 특성을 측정해 얻어진 두 개의 변수에 대한 자료
- 다변량 데이터 : 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료. 이변량 데이터도 다변량 데이터임.
(2) 변량 데이터 탐색
- 일변량 데이터 탐색 ; 기술통계량(평균, 분산, 표준편차), 그래프 통계량(히스토그램, 상자 그림) 2개 종류.
- 이변량 데이터 탐색 ; 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함. 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상임
- 다변량 데이터 탐색 ; 분석 시행 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함
(3) 다변량 데이터 탐색 도구
- 삼점도 행렬 : 두 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현함.
- 그림행렬 ; 변수가 여러개 있을 때 변수쌍 간의 관계를 볼 때 효율적
- 산점도 행렬 ; 개별 Y대 개별 X . x축 y축 변수를 사용해 가능한 각 xy조합의 그래프를 만듬. x축 : 고객, 기간, y축 : 수익률, 매출액
- 별 그림
3. 비정형 데이터 탐색
(1) Unstructured Data 개념 : 이미지, 영상, 텍스트처럼 형태와 구조가 구조화되지 않은 데이터
(2) 비정형 데이터의 유형
- 비정형 데이터
- 텍스트 ; 텍스트 덩어리를 정형 데이터로 변환한 뒤 텍스트 분석을 수행
- 이미지 ; 한 픽셀마다 수치로 변환하는 과정을 거쳐 이미지 분석을 수행 . 딥러닝 기법인 CNN 사용.
- 반정형 데이터
- XML : 웹페이지를 만드는 HTML을 개선해 만든 마크업 언어.
- JSON : 웹상에서 자료를 주고받을 때 사람이 읽을 수 있는 데이터 포맷.
- HTML : 링크, 인용 등을 이용해 구조적 문서를 만드는 방법
(3) 비정형 데이터의 탐색 방법
- 텍스트 탐색 방법 : 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
- 동영상, 이미지 탐색 방법 ; 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용해 탐색
- XML, JSON, HTML 탐색 방법 : 각각의 파서를 이용해 데이터를 파싱 후 탐색
(4) 비정형 데이터 탐색 플랫폼 구성 예시
비정형 데이터는 다양한 오픈소스를 활용해 플랫폼을 구성한 후 탐색할 수 있다.
- HDFS : 마스터/슬레이브 구조를 가지는 분산형 파일 시스템
- 맵리듀스 : 맵 함수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를 계산하는 데이터 탐색 엔진
- 주키퍼 : 분산 환경에서 노드 간의 정보를 공유, 락 , 이벤트 등 보조 기능을 제공하는 프레임워크
- Avro : 이기종 간 데이터 타입을 교환할 수 있는 체계를 제공하는 기술
- Hive : SQL 과 유사한 구조를 가지고, 데이터를 요약하고 쿼리를 수행해 분석할 수 있는 데이터 웨어하우징 솔루션
- Pig : 대규모 데이터 세트에 대한 분석을 위한 쿼리 인터페이스
- HCatalog : 하둡 데이터용 테이블 및 스토리지 관리 서비스
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다
반응형
'Data Analyst > 빅데이터 분석기사' 카테고리의 다른 글
[빅데이터 분석기사 2단원] 3.2 추론통계 Pdf (0) | 2024.08.15 |
---|---|
[빅데이터 분석기사 2단원] 3.1 기술 통계 (기술=Descriptive) PDF (여기부터 어려움) (0) | 2024.08.15 |
[빅데이터 분석기사 2단원] 2.1 데이터 탐색 기초 PDF (0) | 2024.08.15 |
[빅데이터 분석 기사 2단원] 1.2 분석 변수 처리 PDF 제공 (0) | 2024.08.15 |
[빅데이터 분석기사 2단원] 1.1 데이터 정제 PDF 제공 (양 많음 주의) (0) | 2024.08.15 |