Data Analyst/빅데이터 분석기사

[빅데이터 분석기사 4단원] 2.2 분석 결과 시각화 pdf

Data Analyst / PO 2024. 9. 8. 19:06
반응형
  1. 시공간 시각화
  2. 관계 시각화
  3. 비교 시각화
  4. 인포그래픽

[빅분기4단원]2.2_분석_결과_시각화.pdf
0.25MB


1. 시공간 시각화

(1) 시간 시각화

  1. 시간 시각화 개념
    • 주요 관심요소는 경향성. trend. 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있음
  2. 시간 시각화의 유형
  • 막대 그래프
  • 누적 막대그래프
  • 선 그래프
  • 영역차트
  • 계단식 그래프. : 변화가 생길때까지 x축과 평행 선 유지. 다음 값으로 변하는 지점에서 급격하게 뛰어오르는 계단층
  1. 시간 시각화의 해석
  • 한 지역의 월별 교통사고 추이를 시각화하기 위해 R의 ggplot2 패키지에서 제공하는 함수를 이용하여 막대그래프를 작성한다.
  • 막대그래프는 R 언어의 geom_bar() 함수를 이용하여 작성한다.

(2) 공간 시각화

  1. 공간 시각화의 개념 : 지도 정보 표현. 위도 경도 사용
  2. 공간 시각화의 유형
  • 등치지역도 : 지리적 단위로 데이터의 의미를 색상으로 구분 . 채도 밝기 변화. → 왜곡 줄 수 있음
  • 등치선도 : 인구밀도가 상이할 경우 왜곡. 색상의 농도 활용. 개나리 개화예정일
  • 도트맵/도트플롯맵 : 위도 경도에 해당하는 좌표점에 점 찍기. 시간 경과에 따라 점진적으로 확산을 나타내느 경우에 사용
  • 버블맵 / 버블 플롯맵 : 수치화된 데이터 크기를 다른 크기의 원형으로 표시
  • 카토그램 : 지리적 형상 크기를 조절. 재구성된 지도로 왜곡되고 빼뚤어진 화면으로 표기함
  1. 공간 시각화의 해석
  • ggmap(), mapproj(), maps()등으로 교통사고 현황 자료를 지도에 매핑함.
  • R에서 지리정보를 시각화하기 위해 지원하는 패키지는 크게 정적인 방법과 동적인 방법이 있음. 이중 ggmap과 maps, mapproj를 사용한다.
  • 정적
    • maps : install.packages("maps") 패키지 설치, library(maps) 패키지 불러오기
    • mapproj : install.packages("mapproj"), libraty(mapproj)
    • maptools
    • mapplots
  • 동적
    • RgoogleMaps
    • ggmap

2. 관계 시각화

(1) 관계 시각화의 개념

  • 다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 방법.
  • 변수 사이의 연관성인 상관관계는 한 가지 요소의 변화가 다른 요소의 변화와 관련이 있는지를 표현하는 시각화 기법

(2) 관계 시각화의 유형

  • 산점도 : x축과 y축 각각에 두 변숫값의 순서쌍을 한 점으로 표시하여 변수의 관계를 나타낸 그래프 . 상관관계, 군집화, 이상값 패턴을 파악하기에 유용한 그래프
  • 산점도 행렬 : 다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프
  • 버블 행렬 : 산점도에서 데이터값을 나타내는 점 또는 마크에 의미 부여
  • 히스토그램

(3) 관계 시각화의 해석

  • geom_point() 함수를 사용해 x와 y에 각각 변수를 지정하여 두 변수 사이의 관계를 나타내는 산점도를 그린다.

3. 비교 시각화

(1) 비교 시각화의 개념

  • 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법

(2) 비교 시각화의 유형

  • 플로팅 바 차트 : 막대가 낮은 수치부터 높은 수치까지 걸쳐있게 표현. 범주내 값의 다양성, 중복 및 이상값 파악 가능. = 간트 차트(업무별로 일정의 시작과 끝을 그래픽으로 표시해 전체 일정을 한 눈에 볼 수 있는 프로젝트 일정 관리를 위한 바 형태 차트)
  • 히트맵 : 칸별로 색상 구분
  • 체르노프 페이스 : 눈코입귀 등과같이 1대1로 대응해 얼굴 하나로 표현
  • 스타 차트 : 각 변수 표시 지점을 연결선을 통해 그려 별 모양의 도형으로 나타냄. 중심점은 축이 나타내는 값의 최솟값, 가장 먼 끝점은 최댓값
  • 평행 촤표 : 다변량 데이터를 2차원 평면에 표현하는 효과적인 가시화 방법

(3) 비교 시각화의 분석

  • 하나의 변수가 다른 변수에 어떤 영향을 주는지에 관심이 있으면 주로 상관관계로 표현하는데, 상관관계를 알면 한 수치의 변화를 통해 다른 수치의 변화를 예측할 수 있다.
  • 2020년 12월 한 달동안 지역별로 발생한 교통사고 발생 건수를 비교하기 위해 R heatmap() 함수 사용해 히트맵 사용하고 분석.
  • 흰색은 중간값. 최솟값은 옅은색

4. 인포그래픽

(1) 인포그래픽의 개념

(2) 인포그래픽의 유형

  • 지도형 : 특정 국가나 지역의 지도 안에 정보를 담는 방식. 서비스 이용 현황, 연예인 선호도, 매장 분포 등
  • 도표형 : 모든 종류의 수치 데이터
  • 스토리텔링형 : 유명인사, 기업 관련 정보 뉴스
  • 타임라인형 : 주제를 선정해 관련 된 히스토리를 타임라인 형태로 나타내는 방식. 기술, 기업, 인물의 발전 과정 등
  • 비교분석형 : 특정 제품군의 주요 제품 비교
  • 만화형 : 행동, 직업, 심리 등과 관련된 정보 표형

(3) 인포그래픽 활용 방법

  • 그래픽과 데이터 균형
  • 퍼블릭 데이터 활용
  • 템플릿과 아이콘 배치
  • 무료 툴 활용
  • 저작권 설정
  • 인포그래픽스 홍보
혼자 공부하며 시험에 나올 법한 내용들 위주로 정리한 개인 파일입니다.
반응형