
분석 모형 전개 (deployment)분석 결과 활용 시나리오 개발분석 모형 모니터링분석 모형 리모델링1. 분석 모형 전개(1) 빅데이터 모형 운영 시스템 적용 방안빅데이터 모형 개발 및 운영 단계분석 목적 정의가설 검토데이터 준비 및 처리 : 불필요한 변수는 제거하고 변수 변환, 새로운 파생변수를 생성하는 등의 작업을 통해 변수별로 분석 모형에 포함하는 것이 타당한지 확인. 데이터 마이닝 기반 분석 모형을 개발할 때는 학습 데이터세트, 평가,검증 데이터 세트로 수집된 데이터를 나누는 작업 수행모델링 및 분석 : 구체적인 통계적 질문으로 변환하는 단계정확도 및 성능 평가운영빅데이터 모형의 운영 시스템 적용 방안빅데이터 모형의 운영 시스템 적용 단계분석 모형 적용 모듈 결정분석 모형 통합 결정 및 구현(2..

시공간 시각화관계 시각화비교 시각화인포그래픽1. 시공간 시각화(1) 시간 시각화시간 시각화 개념주요 관심요소는 경향성. trend. 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있음시간 시각화의 유형막대 그래프누적 막대그래프선 그래프영역차트계단식 그래프. : 변화가 생길때까지 x축과 평행 선 유지. 다음 값으로 변하는 지점에서 급격하게 뛰어오르는 계단층시간 시각화의 해석한 지역의 월별 교통사고 추이를 시각화하기 위해 R의 ggplot2 패키지에서 제공하는 함수를 이용하여 막대그래프를 작성한다.막대그래프는 R 언어의 geom_bar() 함수를 이용하여 작성한다.(2) 공간 시각화공간 시각화의 개념 : 지도 정보 표현. 위도 경도 사용공간 시각화의 유형등치지역도 : 지리적 단위로 데이터의 의..

분석 모형 해석비즈니스 기여도 평가1. 분석 결과 해석(1) 데이터 시각화의 개념(2) 데이터 시각화 기능설명 기능 :탐색 기능 :표현 기능 :(3) 데이터 시각화 목적정보 전달설득(4) 데이터 시각화 유형시간 시각화분포 시각화관계 시각화비교 시각화공간 시각화(5) 빅데이터 시각화 도구시간 시각화 : 막대그래프, 점그래프분포 시각화 : 파이 차트, 도넛 차트, 트리맵관계 시각화 : 산점도, 버블 차트, 히스토그램비교 시각화 : 히트맵, 평행 좌표 그래프, 체르노프 페이스공간 시각화 : 등치선도, 도트맵, 카토그램(5) 빅데이터 시각화 도구태블로 : 클라우드 기반으로 데이터를 클라우드에 저장인포그램 : 실시간으로 인포그래픽을 연동해줌. 교육, 강의, 미디어 등 자료 제작차트 블록 : 코딩 없이 스프레드시트..

과대 적합 방지매개변수 최적화분석 모형 융합최종 모형 선정1. 과대 적합 방지(1) 과대 적합의 개념제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상. 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우에 발생함분석 모형 관련 용어학습 데이터 : 관측된 데이터를 좌표계로 변환함일반화 : 테스트 데이터에 대한 높은 성능을 갖춤. 과대적합, 과소적합을 피하고 정상추정함과대 적합 : 모델이 학습 데이터에 너무 잘 맞지만, 일반화가 떨어짐과소 적합 : 모델이 너무 단순하여 데이터의 내재된 구조를 학습하지 못할 때 발생(2) 과대 적합 방지하기데이터 증강모델은 학습용 데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대..

분석 도구 선정데이터 분할1. 분석 도구 선정(1) R통계 프로그래밍 언어인 S언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어.특징기능 : 사용자가 제작한 패키지를 직접 추가해 기능 확장. 다양한 패키지를 통해 시각화.도구 : 방대한 양의 패키지와 즉시 사용 가능한 테스트 데이터를 CRAN을 통해 다운받을 수 있음. R studio는 쉽고 편하게 사용하기 위해 개발된 통합 개발 환경. IDE환경 : 인터프리터(소스 코드를 한 줄씩 읽으며 바로 실행하는 프로그램 또는 환경) 언어라는 이유로 처리 속도가 느리다는 평가도 있으나, 상용 버전인 S-PLUS보다 많은 경우에 있어 속도가 빠름 (컴파일러는 소스코드를 기계어로 번역)*패키지 : R을 쉽게 접근할 수 있게 도와주는 R의 기능과 데이터의 집합.(2)..

분석 모형 선정분석 모형 정의분석 모형 구축 절차1. 분석 모형 선정EDA : 탐색적 데이터 분석. 현상에서 패턴을 발견하는 것.통계적 추론 : 현상에서 인과적인 결론을 도출하는 것.기계학습(머신러닝) : 현상을 예측하는 것(1) 통계 기반 분석 모형 선정통계분석 : 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집, 처리, 분류, 분석, 해석하는 일련의 체계통계기반 분석 모형기술 통계 (Descriptive Statistics)데이터 분석의 목적으로 수집된 데이터를 확률,통계적으로 정리,요약하는 기초적인 통계평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출막대그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악분석 초기 단계에서 데이터..