Data Analyst/빅데이터 분석기사
[빅데이터 분석기사 4단원] 2.2 분석 결과 시각화 pdf
Data Analyst / PO
2024. 9. 8. 19:06
반응형
- 시공간 시각화
- 관계 시각화
- 비교 시각화
- 인포그래픽
[빅분기4단원]2.2_분석_결과_시각화.pdf
0.25MB
1. 시공간 시각화
(1) 시간 시각화
- 시간 시각화 개념
- 주요 관심요소는 경향성. trend. 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있음
- 시간 시각화의 유형
- 막대 그래프
- 누적 막대그래프
- 선 그래프
- 영역차트
- 계단식 그래프. : 변화가 생길때까지 x축과 평행 선 유지. 다음 값으로 변하는 지점에서 급격하게 뛰어오르는 계단층
- 시간 시각화의 해석
- 한 지역의 월별 교통사고 추이를 시각화하기 위해 R의 ggplot2 패키지에서 제공하는 함수를 이용하여 막대그래프를 작성한다.
- 막대그래프는 R 언어의 geom_bar() 함수를 이용하여 작성한다.
(2) 공간 시각화
- 공간 시각화의 개념 : 지도 정보 표현. 위도 경도 사용
- 공간 시각화의 유형
- 등치지역도 : 지리적 단위로 데이터의 의미를 색상으로 구분 . 채도 밝기 변화. → 왜곡 줄 수 있음
- 등치선도 : 인구밀도가 상이할 경우 왜곡. 색상의 농도 활용. 개나리 개화예정일
- 도트맵/도트플롯맵 : 위도 경도에 해당하는 좌표점에 점 찍기. 시간 경과에 따라 점진적으로 확산을 나타내느 경우에 사용
- 버블맵 / 버블 플롯맵 : 수치화된 데이터 크기를 다른 크기의 원형으로 표시
- 카토그램 : 지리적 형상 크기를 조절. 재구성된 지도로 왜곡되고 빼뚤어진 화면으로 표기함
- 공간 시각화의 해석
- ggmap(), mapproj(), maps()등으로 교통사고 현황 자료를 지도에 매핑함.
- R에서 지리정보를 시각화하기 위해 지원하는 패키지는 크게 정적인 방법과 동적인 방법이 있음. 이중 ggmap과 maps, mapproj를 사용한다.
- 정적
- maps : install.packages("maps") 패키지 설치, library(maps) 패키지 불러오기
- mapproj : install.packages("mapproj"), libraty(mapproj)
- maptools
- mapplots
- 동적
- RgoogleMaps
- ggmap
2. 관계 시각화
(1) 관계 시각화의 개념
- 다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 방법.
- 변수 사이의 연관성인 상관관계는 한 가지 요소의 변화가 다른 요소의 변화와 관련이 있는지를 표현하는 시각화 기법
(2) 관계 시각화의 유형
- 산점도 : x축과 y축 각각에 두 변숫값의 순서쌍을 한 점으로 표시하여 변수의 관계를 나타낸 그래프 . 상관관계, 군집화, 이상값 패턴을 파악하기에 유용한 그래프
- 산점도 행렬 : 다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프
- 버블 행렬 : 산점도에서 데이터값을 나타내는 점 또는 마크에 의미 부여
- 히스토그램
(3) 관계 시각화의 해석
- geom_point() 함수를 사용해 x와 y에 각각 변수를 지정하여 두 변수 사이의 관계를 나타내는 산점도를 그린다.
3. 비교 시각화
(1) 비교 시각화의 개념
- 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법
(2) 비교 시각화의 유형
- 플로팅 바 차트 : 막대가 낮은 수치부터 높은 수치까지 걸쳐있게 표현. 범주내 값의 다양성, 중복 및 이상값 파악 가능. = 간트 차트(업무별로 일정의 시작과 끝을 그래픽으로 표시해 전체 일정을 한 눈에 볼 수 있는 프로젝트 일정 관리를 위한 바 형태 차트)
- 히트맵 : 칸별로 색상 구분
- 체르노프 페이스 : 눈코입귀 등과같이 1대1로 대응해 얼굴 하나로 표현
- 스타 차트 : 각 변수 표시 지점을 연결선을 통해 그려 별 모양의 도형으로 나타냄. 중심점은 축이 나타내는 값의 최솟값, 가장 먼 끝점은 최댓값
- 평행 촤표 : 다변량 데이터를 2차원 평면에 표현하는 효과적인 가시화 방법
(3) 비교 시각화의 분석
- 하나의 변수가 다른 변수에 어떤 영향을 주는지에 관심이 있으면 주로 상관관계로 표현하는데, 상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측할 수 있다.
- 2020년 12월 한 달동안 지역별로 발생한 교통사고 발생 건수를 비교하기 위해 R heatmap() 함수 사용해 히트맵 사용하고 분석.
- 흰색은 중간값. 최솟값은 옅은색
4. 인포그래픽
(1) 인포그래픽의 개념
(2) 인포그래픽의 유형
- 지도형 : 특정 국가나 지역의 지도 안에 정보를 담는 방식. 서비스 이용 현황, 연예인 선호도, 매장 분포 등
- 도표형 : 모든 종류의 수치 데이터
- 스토리텔링형 : 유명인사, 기업 관련 정보 뉴스
- 타임라인형 : 주제를 선정해 관련 된 히스토리를 타임라인 형태로 나타내는 방식. 기술, 기업, 인물의 발전 과정 등
- 비교분석형 : 특정 제품군의 주요 제품 비교
- 만화형 : 행동, 직업, 심리 등과 관련된 정보 표형
(3) 인포그래픽 활용 방법
- 그래픽과 데이터 균형
- 퍼블릭 데이터 활용
- 템플릿과 아이콘 배치
- 무료 툴 활용
- 저작권 설정
- 인포그래픽스 홍보
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형