[빅데이터/인공지능 목차]

 

1. 데이터 통합 및 마이그레이션 개념

데이터 통합은 기존의 Legacy System의 Data를 추출(Export)해서 신규 시스템에 적합한 형식과 내용으로 변환(Conversion) 한 후, 신규 시스템에 올리는 (Transfer) 일련의 과정

 

2. 데이터 통합 및 마이그레이션 절차

   추출, 변환, 로드(ETL)' 프로세스 사용

  1. 추출: 데이터가 소스 시스템에서 임시 스테이징 데이터 저장소로 이동한 다음 고품질의 데이터로 정제됩니다.
  2. 변환: 데이터가 구조화되고 변환되어 대상 소스와 매칭됩니다.
  3. 로드: 구조화된 데이터가 데이터 웨어하우스 또는 기타 저장소 엔티티에 로드됩니다.

3. 데이터 통합의 유형

   1. 벌크/배치(batch) 데이터 이동

       - 가장 일반적인 스타일로, 데이터 추출, 데이터 변환, 데이터 로드

   2. 데이터 복제

       - 데이터가 하나의 데이터베이스에서 다른 데이터베이스로 복사되며 변경된 데이터만 보조 데이터베이스에 복제

   3. 데이터 가상화

       - 가상의 추상화 레이어를 사용해 데이터베이스 내의 모든 데이터에 대한 단일 뷰를 제공하며 위치, 소스 시스템,

         유형에 관계없이 데이터에 실시간으로 액세스 가능

   4. 스트림 데이터 통합

        - 변환이 즉시 수행되어야 하는 지속적 흐름 또는 스트림에서 생성된 데이터에 사용

 

참고 : 클라우드 전환

[전략] 환경분석 -> 수요분석 -> 현황분석 -> 전략계획
[절차] 분석->준비->이관->안정화
[상세절차] 계획수립, 클라우드환경구성, 마이그레이션, 확인및검증, 서비스전환, 안정화및최적화

 

[참조]

https://www.sap.com/korea/insights/what-is-data-integration.html

 

데이터 통합이란? | SAP Insights

데이터 통합은 회사가 비즈니스 인사이트를 얻기 위해 모든 유형의 데이터를 소비, 결합, 활용할 수 있도록 하는 일련의 툴과 선진사례입니다.

www.sap.com

 

[빅데이터/인공지능 목차]

 

1. 정보 주체 자기 결정권 행사 제도, 마이데이터 개념

1). 마이데이터 개념

  • 정보 주체의 자기 결정권 행사 제도로 여러 기관에 흩어져 있는 개인의 정보를 정보 주체가 주도적으로 활용하는 체계
  • 개인데이터의 관리와 활용 권한 정보주체인 개인에게 있음을 강조하는, 개인데이터 활용 체계
  • 2020년 1월 국회 본회의 통과, 2020년 8월부터 시행
    법시행과 함께 본인 신용정보관리업(마이데이터 사업자) 예비허가 사전 신청서 접수 시작
    2020년 12월 예비허가 사업자 총 22개 사 선정

2). 마이데이터 추진배경

  - 데이터 경제 활성화(기업 개인 맞춤화 서비스 제공), 정부차원 정책실현(서비스 다양화), 자기 결정권 확대

 

3). 마이데이터 필요성

구분 설명
정보주체의 소외 데이터의 중요성이 부각되는 가운데, 정보주체인 개인이 소외되는 문제가 대두
자기결정권의 보장한계 개인이 자기정보를 관리 및 통제하기 어려워지면서, 소극적 정보보호로는 자기결정권 보장에 한계
데이터 산업적 기반 미흡 정보주체의 데이터 관리 및 활용을 지원하고, 소비자의 구조적인 정보 열위를 완화 필요

4). 마이 데이터의 특징

특징 설명
연계 서비스 제공 본인정보를 기반으로 부수적인 서비스 창출
자생적 시장 형성 신용관리증의 본인정보 관리 및 활용에 대한 수요가 증대되면서 다양한 형태의 시장 확대
적극적인 데이터 활용 신용정보법에 의해 제한되던 데이터의 활용부분이 개선되어, 적극적인 데이터의 활용 가능

2. 마이데이터 서비스 모델 및 모델 참여자

1). 마이데이터 서비스 모델

 - 개인정보 전송요구권을 통해 내 데이터를 능동적으로 관리하고 활용하는 서비

2). 마이데이터 모델 참여자

모델 참여자 설명
개인 마이데이터 서비스를 이용하는 당사자로 개인데이터로 식별가능하고, 해당 개인데이터의 주체이면서 통제권을 가진 사람 
개인데이터 보유자 마이데이터 서비스 제공자가 활용하는 개인데이터를 보유하고 있는 기관(업)
마이 데이터
서비스 제공자
개인데이터를 수집/이용하여 마이데이터 서비스를 제공하는 모든 기업, 기관

3. 마이데이터 사업의 산업별 주요 제공정보 범위 및 활성화 방안

1). 마이데이터 사업의 산업별 중 제공정보 범위

산업 주요 정보제공 범위 주요 서비스
금융 예·적금 계좌 잔액 및 거래 내역 - 저축, 재테크 방안 안내 등을 통한 자산 형성 지원
카드 결제 내역, 청구 금액 다양한 카드 사용 혜택 제공 및 합리적인 소비습관 개선 지원
통신 통신료 납부·청구 내역, 소액 결제 이용 내역 - 통신정보 기반 금융 상품, 유통 정보 기반 금융 상품 등 고부가가치 혁신 서비스 제공
공공 국세·관세·지방세 납세증명, 국민· 공무원 연금보험료 납부내역 - 주요 세금 납세 안내와 납세 증명서 발급 서비스 제공

2). 보안측면 마이데이터 활성화 방안

구분 방안 설명
정책 - 기준, 범위 명확 구체적 협의, 조율 필요
- 이해관계자 참여 기업, 기관 적극 참여
기술 - 표준화, 규격화 다양한 출처의 데이터 표준화 
- 이동시 보안기술 정보 유출, 침해문제 처리
경제

- 다양산업 확대 타사업 및 다양한 분야 확대
- 스타드업 육성 의도적으로 스타드업 육성 

[빅데이터/인공지능 목차]

 

 

1. 통계적 가설검증 개요(Statistical Hypothesis Testing)

  • 표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞는지 통계적으로 검정하는 분석 방법( 귀무가설과 대립가설을 통해 통계적 가설검정 수행)

 

2가지 상반되는 가설

귀무가설 H0
Null hypothesis
직접 검정 대상이 되는 가설(귀무가설은 기각이 목표)
-True 가능성이 적어 버릴 것이 예상되는 가설
-귀무가설은 옳다는 가정하에 시작
대립가설 H1
Alternative Hypothesis
귀무 가설에 대립되는 가설(대립가설은 채택이 목표)
-귀무 가설이 기각될 때 받아들여지는 가설
-새로운 주장 또는 실제로 입증 하고픈 가설
-표본으로부터 확실한 근거에 의해 입증하고자 하는 가설

 

2. 관련 용어

용어 설명
통계분석 방법 표본통계량의 표본분포, 검정통계량 계산 등 고려한 방법
검정통계량 (Test Statistic) 표본통계량이 Ho에서 모수(Parameter)에 대해 예측하는 수준에 얼마나 근접했는지 판단하는 기준
=(표본통계량-모수의 귀무가설값) / 표본통계량 표준오차
가설검정에서 표본통계량을 검정통계량이라함
검정통계량은 x축 좌표 구함
유의수준(α) H0(귀무가설)이 참이라는 전제하에 표본에서 계산된 검정통계량값이 표본분포에서 관찰될 확률
귀무가설Ho가 참일 때 대립가설 H1을 채택하는 오류를 범할 확률의 최대 허용한계
임계치 가설기각과 비기각(수용)지역을 구분하는 검정통계량 값
기각역/수용역 Ho기각: P-value < 유의수준 or 검정통계량 > 임계치
Ho수용: p-value > 유의수준 or 검정통계량 < 임계치
유의수준이 정해졌을 때 검정통계량 분포에서 유의수준 크기에 해당하는 영역

 

3. 통계적 가설검증 절차 및 그래프 표현

1) 통계적 가설 검증 절차

순서 절차 설명
1 가설 선정 (통계)가설 H1, H0의 설정
2 검정 방법 선택 통계분석방법 및 검정통계량 선택
3 유의수준 결정 통계적 유의 수준(α) 결정
4 통계 분석 통계분석(검정통계량 계산)
5 비교 평가 계산된 검정통계량의 p값을 유의수준(α)과 비교
6 결과 적용 H0의 기각 혹은 수용 결정

2) 통계적 가설 검증 그래프 표현

 

4. P-VALUE와 유의 수준

1) P-VALUE

  • 주어진 통계량에서 귀무가설 H0를 기각할 수 있는 최소의 유의수준(유의확률 = p-value)
  • 귀무가설이 맞다고 가정할 때 얻은 결과보다 더 극단적인 결과(통계값, statistics)가 실제로 관측될 확률

2) 유의수준

  • 귀무가설을 기각하기 위한 반대의 증거가 어느 정도 강해야 하는지를 의미하는 수
  • 귀무가설을 유지하기 위한 최소한의 확률이 어느 정도인지를 정하는 수준

[빅데이터/인공지능 목차]

 

 

불편 추정량(Unbiased Estimator)

 

1. 좋은 추정량을 선택하기 위한 기준, 불편 추정량의 개념

1) 정의

  • 추정량의 기대 값이 모수와 같거나, 표본 평균의 기대값이 모 평균과 같아지는 값
  • 추정하고자 하는 모수(모집단의 평균, 중앙 값, 최빈치, 분산 등)가 실제 값에 대해 매우 가깝거나 근사한 값
  • E(X`) - E(X) = 0, E(X`) = E(X) 표본집단의 기대치에서 모집단의 기대치를 뺀 값을 편의라고 하며, 편의가 0인 상태는 모수와 표본의 차이가 없는 불편 추정량 상태라고 함  (E(X) : 추정량, X` : 표본 집단, X : 모딥단)

2) 특징

  • 편의(bias, 치우침) 없는 성질
  • 일치성
  • 상대적 효율성

 

2. 불편 추정량 선택 주요 기준

주요 기준 그래프 설명
불편성/불편의성
(Unbiasedness)

- 편의(치우침) 없는 성질
   E(X`) - E(X) = 0
- 어떤 통계량의 기대 값이 모수에 일치하는 통계량
일치성
(Consistency)
- 표본의 크기가 커질수록, 추정량이 모수에 점근적(Asymptotic)으로 근접하는 성질
- 일치추정량 : 표본 분산 (표본 표준편차)
상대적 효율성/유효성
(Relative Efficiency)
- 여러 불편의 추정량이 있을 경우, 이들 중 추정량 분산이 더 작게 나타나는 성질
  • 추정하고자 하는 모수의 실제 값과 매우 가깝거나 그 주위에 집중된 추정량을 선택하는 방식

 

[데이터베이스 목차]

 

1. 데이터 체계적 관리 프로세스, 데이터거버넌스의 개념 

전사 차원의 모든 데이터에 대한 정책, 지침, 표준화, 전략을 수립하고 데이터를 관리하는 조직과 프로세스를 구축함으로써 고품질의 데이터를 활용하여 기업의 가치 창출을 지원하는 체계 (데이터 체계적 관리)

목적) 고품질 데이터의 확보와 관리, 기업에 제공하는 정보 활용 극대화, 기업의 다양한 가치 창출 기여 

2. 데이터거버넌스 프레임워크 및 주요요소

가. 데이터거버넌스 프레임워크

  • 데이터 거버넌스는 데이터를 문서화, 체계적인 관리와 정책 수립을 통해 데이터의 자산화에 필요한 기반을 제공

나. 데이터거버넌스 프레임워크 구성요소

구분 구성요소 설명
데이터 관리체계 원칙(Principle) 데이터를 유지 관리하기 위한 지침
절차(Process) 조직이 데이터를 관리하기 위해 수행하는 활동과 체계
조직(Organization) 데이터를 관리할 조직 체계
데이터 아키텍처 표준(Standards) 전사 데이터 참조 모델 및 상호 운용성 지원
프레임워크(Framework) 전사 데이터 해석, 이해의 기본 틀 제공
품질(Quality) 품질관리 기준에 다른 측정, 품질관리 활동
데이터 관리도구 메타 데이터 관리 도구 데이터 표준, 코드, 데이터베이스, 영향도 분석
품질 관리 도구 기준정보, 데이터 규칙, 업무흐름, 모니터링

3. 데이터거버넌스 주요기능

주요 기능 설명
데이터 품질 관리
(Data Quality Management)
데이터 프로파일링 및 데이터 정제 작업 관리
메타 데이터 관리
(Metadata Management)
데이터 검색, 빅데이터를 정확하게 해석, 데이터 활용의 기반 요소
데이터 주기 관리
(Data Lifecycle Management)
데이터 생성 및 초기 저장에서 부터 데이터가 폐기될 때까지 흐름을 관리
데이터 보안 및 프라이버시
(Data Security and privacy)
데이터 보호수준 정의 및  관리

- 기업의 데이터 거버넌스 체계 수립시 기본이 되는 데이터의 데이터(마스터 데이터) 체계적 관리의 중요성 부각

 

참조) https://itpewiki.tistory.com/m/171

+ Recent posts