
분석 모형 전개 (deployment)분석 결과 활용 시나리오 개발분석 모형 모니터링분석 모형 리모델링1. 분석 모형 전개(1) 빅데이터 모형 운영 시스템 적용 방안빅데이터 모형 개발 및 운영 단계분석 목적 정의가설 검토데이터 준비 및 처리 : 불필요한 변수는 제거하고 변수 변환, 새로운 파생변수를 생성하는 등의 작업을 통해 변수별로 분석 모형에 포함하는 것이 타당한지 확인. 데이터 마이닝 기반 분석 모형을 개발할 때는 학습 데이터세트, 평가,검증 데이터 세트로 수집된 데이터를 나누는 작업 수행모델링 및 분석 : 구체적인 통계적 질문으로 변환하는 단계정확도 및 성능 평가운영빅데이터 모형의 운영 시스템 적용 방안빅데이터 모형의 운영 시스템 적용 단계분석 모형 적용 모듈 결정분석 모형 통합 결정 및 구현(2..

시공간 시각화관계 시각화비교 시각화인포그래픽1. 시공간 시각화(1) 시간 시각화시간 시각화 개념주요 관심요소는 경향성. trend. 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있음시간 시각화의 유형막대 그래프누적 막대그래프선 그래프영역차트계단식 그래프. : 변화가 생길때까지 x축과 평행 선 유지. 다음 값으로 변하는 지점에서 급격하게 뛰어오르는 계단층시간 시각화의 해석한 지역의 월별 교통사고 추이를 시각화하기 위해 R의 ggplot2 패키지에서 제공하는 함수를 이용하여 막대그래프를 작성한다.막대그래프는 R 언어의 geom_bar() 함수를 이용하여 작성한다.(2) 공간 시각화공간 시각화의 개념 : 지도 정보 표현. 위도 경도 사용공간 시각화의 유형등치지역도 : 지리적 단위로 데이터의 의..

분석 모형 해석비즈니스 기여도 평가1. 분석 결과 해석(1) 데이터 시각화의 개념(2) 데이터 시각화 기능설명 기능 :탐색 기능 :표현 기능 :(3) 데이터 시각화 목적정보 전달설득(4) 데이터 시각화 유형시간 시각화분포 시각화관계 시각화비교 시각화공간 시각화(5) 빅데이터 시각화 도구시간 시각화 : 막대그래프, 점그래프분포 시각화 : 파이 차트, 도넛 차트, 트리맵관계 시각화 : 산점도, 버블 차트, 히스토그램비교 시각화 : 히트맵, 평행 좌표 그래프, 체르노프 페이스공간 시각화 : 등치선도, 도트맵, 카토그램(5) 빅데이터 시각화 도구태블로 : 클라우드 기반으로 데이터를 클라우드에 저장인포그램 : 실시간으로 인포그래픽을 연동해줌. 교육, 강의, 미디어 등 자료 제작차트 블록 : 코딩 없이 스프레드시트..

과대 적합 방지매개변수 최적화분석 모형 융합최종 모형 선정1. 과대 적합 방지(1) 과대 적합의 개념제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상. 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우에 발생함분석 모형 관련 용어학습 데이터 : 관측된 데이터를 좌표계로 변환함일반화 : 테스트 데이터에 대한 높은 성능을 갖춤. 과대적합, 과소적합을 피하고 정상추정함과대 적합 : 모델이 학습 데이터에 너무 잘 맞지만, 일반화가 떨어짐과소 적합 : 모델이 너무 단순하여 데이터의 내재된 구조를 학습하지 못할 때 발생(2) 과대 적합 방지하기데이터 증강모델은 학습용 데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대..

평가 지표분석 모형 진단교차 검증모수 유의성 검정적합도 검정분석 모형 : 빅데이터 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석을 가능하게 하는 모형.구축한 빅데이터 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 매우 중요.분석 모형 평가는 고려된 모형들 중 어떤 것이 가장 우수한지 등을 분석하는 과정일반화의 가능성 : 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가효율성 : 적은 입력변수가 필요할수록 효율성이 높은 것으로 평가예측과 분류의 정확성1. 평가지표(1) 회귀 모형의 평가지표회귀 모형의 이해를 위한 지표 : 위에 ^ 붙어있으면 예측값. y^=ax+b, 위에-붙어있으면 평균값.회귀 모형의 기본 평가지표 :SSE : ..

분석 도구 선정데이터 분할1. 분석 도구 선정(1) R통계 프로그래밍 언어인 S언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어.특징기능 : 사용자가 제작한 패키지를 직접 추가해 기능 확장. 다양한 패키지를 통해 시각화.도구 : 방대한 양의 패키지와 즉시 사용 가능한 테스트 데이터를 CRAN을 통해 다운받을 수 있음. R studio는 쉽고 편하게 사용하기 위해 개발된 통합 개발 환경. IDE환경 : 인터프리터(소스 코드를 한 줄씩 읽으며 바로 실행하는 프로그램 또는 환경) 언어라는 이유로 처리 속도가 느리다는 평가도 있으나, 상용 버전인 S-PLUS보다 많은 경우에 있어 속도가 빠름 (컴파일러는 소스코드를 기계어로 번역)*패키지 : R을 쉽게 접근할 수 있게 도와주는 R의 기능과 데이터의 집합.(2)..