
빅데이터 플랫폼빅데이터와 인공지능개인정보보호법 제도개인정보 활용1. 빅데이터 플랫폼(1) 빅데이터 플랫폼의 개념가치를 추출하기 위한 과정 (수집 → 저장 → 처리 → 분석 → 시각화 과정)을 규격화한 기술특화된 분석 (의료, 환경, 범죄, 자동차)을 지원하는 빅데이터 플랫폼이 발전하는 추세임(2) 빅데이터 플랫폼 구성 요소수집 : 원천 데이터의 정형/반정형/비정형 데이터 수집 ex) ETL , EAI, 크롤러저장 : 정형/반정형/비정형 데이터 저장 ex) RDBMS, NoSQL분석 : 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 ex) SNS 분석, 예측 분석활용 : 데이터 가시화 및 BI, Open API 연계 ex) 히스토그램, 인포그래픽 등*EAI_Enterprise Architecture Int..

빅데이터의 특징빅데이터의 가치데이터 산업의 이해빅데이터 조직 및 인력1. 빅데이터의 특징(1) 빅데이터 개념DIKW 피라미드Data : 객관적 사실. 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호Information : 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터Knowledge : 획득된 정보를 구조화해 유의미한 정보로 분류하고 일반화시킨 결과물. 정보를 기반해 찾아낸 규칙Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어. 상황이나 맥락에 맞게 규칙을 적용하는 요소(2) 빅데이터 특징3V (Volume, Variety, Velocity)→ 5V(Veracity, Value), 7V (Validity, Volatility)Volume..
1. 객체지향 프로그래밍 무제를 여러개의 객체 단위로 나눠 작업하는 방식 클래스를 이용해서 연관 있는 처리 부분과 데이터 부분을 하나로 묶어 객체를 생성해 사용함 1-1. 클래스와 객체 건축 설계도가 클래스라면, 실제로 지어진 집은 객체로 비유할 수 있음 객체는 클래스로 생성되어 구체화된 인스턴스 실제로 클래스가 인스턴스화 되어 메모리에 상주하는 상태를 객체라고 부름 파이썬의 모든 변수는 객체를 저장 1-2. 클래스 만들기 class 클래스명: def __init__(self): self.필드명1 = 값1 self.필드명2 = 값2 ... 객체가 메모리에 로드될 때 가장 먼저 실행될 문장 ... def 메소드명(변수1, 변수2 ..): 메소드가 호출되면 실행될 문장 생성자는 클래스를 객체화 시킬 때 가장..
하나 이상의 독립 변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 회귀 = Regression = 돌아간다 목적 : 독립변수로 종속변수를 예측하기 위함. 예측을 위해 필요한 것 : 추세선 -> 점을 예측. 추세선을 예측하는 것이 회귀분석의 최종 목적 오차가 발생함. 측정값 - 예측값. 오차가 작은 측정 표준오차 : 대부분 표본으로 통계분석을 하는데, 표본이 모집단에 가까운지 아닌지 판단해야 함. 표준오차가 작으면 참값에 가깝다는 뜻. 회귀계수(기울기)는 최소제곱법으로 구해진다. 표준오차가 작으면 회귀계수가 우연일 확률이 낮다. -> 의미가 있을 것이다 이 확률을 어떻게 계산할까? t-test t-test t-value = 회귀계수(기울기) / 표준오차 기울기가 0이면 독립변수가 원인으로 아무..
1. 시공간 데이터 탐색 (1) 시공간 데이터 시공간 데이터의 특징 이산적 변화 : 데이터 수집 주기가 일정하지 않은 데이터. 시간의 변화에 따라 데이터가 추가됨 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용해 연속적으로 표현. 함수 이용 시공간 데이터의 타입 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구정 폴리곤 타입 : n개(n≥3)의 노드와 n개의 세그먼트로 구성 폴리라인 타입 : n개(n≥3)의 노드와 n-1개의 세그먼트로 구성 (2) 시공간 데이터 탐색 절차 주소를 행정구역으로 변환 : 엑셀 split : split("a,bc",",") find : 문자열에서 가장 왼쪽으로부터 몇번째에 있는지를 숫자..
3. 기초통계량 추출 및 이해 (1) 중심 경향성의 통계량 : 평균, 중위수(중앙값), 최빈값 중위수 : 홀수면 n+1/2에 있는 수 최빈값 : 가장 많이 관측되는 수 (2) 산포도의 통계량 : 흩어진 정도 표현. 범위, 분산, 표준편차 범위 = 최댓값 - 최솟값 분산 : 평균으로부터 흩어진 정도. 편차 : 데이터-평균. 이므로, "편차의 제곱의 합"으로 계산. 모분산 = 편차의 제곱의 합 / 모집단의 수 표본 분산 = 데이터-표본평균의 제곱의 합 / 표본의 수 -1 표준편차 : 분산의 양의 제곱근의 값 = 분산에 루트 씌운거. 변동계수 CV Coefficient of Variation : 측정 단위가 서로 다른 경우. 표준편차나 분산은 단위가 다른 두 자료 군의 산표도를 비교하는데는 부적절함. 상대표준..