[빅데이터/인공지능 목차]

 

개념 : 데이터 분석의 기본  

  • 정확하고 신뢰 할 수 있는 데이터 마이닝 결과를 추출하기 위하여 데이터의 분석 및 처리에 적합한 형식으로 데이터를 조작하는 과정
  • 올바른 분석 결과를 얻기 위해서는 올바른 데이터를 입력해야 하므로, 우수한 분석 알고리즘을 설계하는 것만큼이나 충분히 가다듬어진 데이터를 확보하는 것이 중요
  • 값/분류 인코딩, 샘플링, 스케일링, 피처추출을 통해 머신러닝이 학습하기 편하고, 오버피팅 최소화하는 것이 전처리의 목적

데이터 전처리 단계

  • 데이터 분석을 위해서는 그에 적합한 데이터가 필요하며, 이를 확보하기 위해 충분한 데이터 전처리(Data Preparation) 과정이 필수적임 
  • 데이터 전처리는 모델링에 적합한 형태로 처리하는 과정으로, 데이터를 정규화 하거나, 다른 형태로 변화하거나 결측값을 대체하는 작업을 진행
단계 설명 기법
데이터 정제
(cleansing)
  • 레코드 집합, 테이블 또는 데이터베이스에 서 손상되거나 부정확한 레코드를 검색 및 수정(또는 제거)하는 프로세스
  • 모순점 포착
  • 메타데이터 확인
  • 이상 값/결측 값 처리
데이터 통합
(integration)
  • 여러 소스의 데이터를 통합하는 프로세스
  • ETL 툴을 활용하여 데이터/스키마 통합
  • 개체 식별 문제
  • 데이터 값 충돌 해결
  • 중복 처리, 통계
데이터 변환
(transformation)
  • 하나의 형식이나 구조에서 다른 형식이나 구조로 데이터를 변환하는 프로세스
  • 데이터 노이즈 제거
  • 새로운 속성 추가
  • 요약 및 집계, 정규화
데이터 정리
(reduction)
  • 분석 결과는 동일한 의미가 될 수 있도록 데이터 집합을 축소하는 과정
 
  • 웨이블릿 변환
  • PCA, 클러스터링, 샘플링
  • 회귀 및 로그 선형 모델
  • 대용량 데이터의 전처리 과정은 사람이 정제 및 정형을 하기에 한계가 있어 데이터의 형태 및 구조를 파악하여 작업을 용이하게 하는 데이터 전처리 툴 필요

 

 

 

전처리 기법

구분 전처리 기법 설명
결측값 다루기 샘플 및 피처 제거 - 결측값이 있는 행이나 열을 제거
- 너무 많은 제거는 가치 있는 정보의 손실 유발
결측값 보정 - 일반적으로 보간법 사용
- 평균값, Median값, 최빈값 등으로 대치
범주형 데이터
다루기
명목형/순서형 피처 매핑 - 명목형 피처를 정수형으로 매핑(크기 무의미)
- 순위형 피처를 정수형으로 매핑(크기 의미 있음)
분류 라벨 인코딩 - 명목형 분류라벨을 정수형으로 인코딩
명목형 피처 원핫 인코딩 - 명목형 피처를 수치화하면 머신러닝은 순위형으로 오해
- 원핫 인코딩으로 명목형 피처를 Dummy 피처로 대체하여 해결
피처 스케일링 정규화 - 데이터를 0과 1 범위로 스케일링
- 최대 최소 스케일링의 특별한 케이스
표준화 - 평균 0, 표준편차 1이 되도록 피처 열을 중심화
- 표준화 후 피처 열은 정규분포 형태를 가짐.
피처 선택 L1 정규화가 있는
희소 솔루션 찾기
- 훈련데이터의 비용함수를 최소화하는 가중계수 조합 찾기
- 가중계수가 작은 피처를 제거
그리드 서치 알고리즘 - 연속형 피처 선택 알고리즘으로 사용
- 단계별 지역 최적해 도출 후, 문제에 대한 최적해 도출기법
랜덤 포레스트 - 피처의 상대적 중요도를 다수의 의사결정 트리로 구성
- 이를 조합하여 피처 중요도 평가
차원 축소 주성분 분석(PCA) - 데이터 내 최대 분산 수직 축을 찾으려는 비지도적 선형변환 기법
- 변환행렬 이용하여 X1, X2 차원을 PC1, PC2 차원으로 변환
선형 판별 분석(LDA) - 분류의 분리를 최적화하는 지도적 차원축소 기법
- 피처간 통계적 상호독립성, 분류간 동일한 공분산 행렬, 피처 내 데이터의 정규분포를 가정한 상태에서 정규분포 패턴의 차이를 분류하는 방식

 

[빅데이터/인공지능 목차]

 

1. 네트웤 중심성 평가 개요

 가. 네트워크 중심성 평가 개념

  -  네트워크 노들 간 연계된 빈도와 거리 측정하여 해당 노드가 네트워크 중심에 위치하는 정도를 표현한 지표

  - 그래프 이론 기반 네트워크 중심성(Network Centrality)은 그래프, 꼭짓점(vertex) 혹은 노드(Node)의 상대적 중요성 나타내는 척도

 나. 네트워크 중심성 분석 목적

         -  중심성 측정은 네트워크 내 각 노드간 유기적 연계구조 확인 가능함.

 

2. 네트워크 중심성 유형별 분석기법

 

구분  설명 수식 표현
연결 중심성 다른점과 연결된 다른 점과 연결된 정도로 보는 개념으로 한점에 연결된 다른 점들의 수로 측정되며, 연결된 점이 많고, 적음이 절대적 기준
근접 중심성 한 점이 다른 점들에 얼마만큼 가깝게 있는가를 말하는 개념으로 다른 점들과의 거리(Distance)가 기준이 된다. 이는 연결 중심성과는 달리 직접적으로 연결된 노드뿐만 아니라 네트워크 내 간접적으로 연결된 모든 노드들 간의 거리를 합산하여 중심성 측정 트징 가짐
매개 중심성 중개자의 역할에 초점을 맞추는 개념으로 한 점이 얼마나 다른 점들과의 연결망을 구축하는데 매개 역할을 하는지가 기준이 된다. 

3. 중심성 분석 활용 및 의미

가. 활용 분야

 - 빅데이터와 결합 소셜 네트워크 분석 및 CRM/마케팅 툴, 교통량 분석, 보건/방역 등 공익 분야 활용 가능

 

나. 사회연결망 지표가 온라인 커뮤니티 내에서 갖는 의미

-끝-

[빅데이터/인공지능 목차]

 

1. 데이터 통합 및 마이그레이션 개념

데이터 통합은 기존의 Legacy System의 Data를 추출(Export)해서 신규 시스템에 적합한 형식과 내용으로 변환(Conversion) 한 후, 신규 시스템에 올리는 (Transfer) 일련의 과정

 

2. 데이터 통합 및 마이그레이션 절차

   추출, 변환, 로드(ETL)' 프로세스 사용

  1. 추출: 데이터가 소스 시스템에서 임시 스테이징 데이터 저장소로 이동한 다음 고품질의 데이터로 정제됩니다.
  2. 변환: 데이터가 구조화되고 변환되어 대상 소스와 매칭됩니다.
  3. 로드: 구조화된 데이터가 데이터 웨어하우스 또는 기타 저장소 엔티티에 로드됩니다.

3. 데이터 통합의 유형

   1. 벌크/배치(batch) 데이터 이동

       - 가장 일반적인 스타일로, 데이터 추출, 데이터 변환, 데이터 로드

   2. 데이터 복제

       - 데이터가 하나의 데이터베이스에서 다른 데이터베이스로 복사되며 변경된 데이터만 보조 데이터베이스에 복제

   3. 데이터 가상화

       - 가상의 추상화 레이어를 사용해 데이터베이스 내의 모든 데이터에 대한 단일 뷰를 제공하며 위치, 소스 시스템,

         유형에 관계없이 데이터에 실시간으로 액세스 가능

   4. 스트림 데이터 통합

        - 변환이 즉시 수행되어야 하는 지속적 흐름 또는 스트림에서 생성된 데이터에 사용

 

참고 : 클라우드 전환

[전략] 환경분석 -> 수요분석 -> 현황분석 -> 전략계획
[절차] 분석->준비->이관->안정화
[상세절차] 계획수립, 클라우드환경구성, 마이그레이션, 확인및검증, 서비스전환, 안정화및최적화

 

[참조]

https://www.sap.com/korea/insights/what-is-data-integration.html

 

데이터 통합이란? | SAP Insights

데이터 통합은 회사가 비즈니스 인사이트를 얻기 위해 모든 유형의 데이터를 소비, 결합, 활용할 수 있도록 하는 일련의 툴과 선진사례입니다.

www.sap.com

 

[빅데이터/인공지능 목차]

 

1. 정보 주체 자기 결정권 행사 제도, 마이데이터 개념

1). 마이데이터 개념

  • 정보 주체의 자기 결정권 행사 제도로 여러 기관에 흩어져 있는 개인의 정보를 정보 주체가 주도적으로 활용하는 체계
  • 개인데이터의 관리와 활용 권한 정보주체인 개인에게 있음을 강조하는, 개인데이터 활용 체계
  • 2020년 1월 국회 본회의 통과, 2020년 8월부터 시행
    법시행과 함께 본인 신용정보관리업(마이데이터 사업자) 예비허가 사전 신청서 접수 시작
    2020년 12월 예비허가 사업자 총 22개 사 선정

2). 마이데이터 추진배경

  - 데이터 경제 활성화(기업 개인 맞춤화 서비스 제공), 정부차원 정책실현(서비스 다양화), 자기 결정권 확대

 

3). 마이데이터 필요성

구분 설명
정보주체의 소외 데이터의 중요성이 부각되는 가운데, 정보주체인 개인이 소외되는 문제가 대두
자기결정권의 보장한계 개인이 자기정보를 관리 및 통제하기 어려워지면서, 소극적 정보보호로는 자기결정권 보장에 한계
데이터 산업적 기반 미흡 정보주체의 데이터 관리 및 활용을 지원하고, 소비자의 구조적인 정보 열위를 완화 필요

4). 마이 데이터의 특징

특징 설명
연계 서비스 제공 본인정보를 기반으로 부수적인 서비스 창출
자생적 시장 형성 신용관리증의 본인정보 관리 및 활용에 대한 수요가 증대되면서 다양한 형태의 시장 확대
적극적인 데이터 활용 신용정보법에 의해 제한되던 데이터의 활용부분이 개선되어, 적극적인 데이터의 활용 가능

2. 마이데이터 서비스 모델 및 모델 참여자

1). 마이데이터 서비스 모델

 - 개인정보 전송요구권을 통해 내 데이터를 능동적으로 관리하고 활용하는 서비

2). 마이데이터 모델 참여자

모델 참여자 설명
개인 마이데이터 서비스를 이용하는 당사자로 개인데이터로 식별가능하고, 해당 개인데이터의 주체이면서 통제권을 가진 사람 
개인데이터 보유자 마이데이터 서비스 제공자가 활용하는 개인데이터를 보유하고 있는 기관(업)
마이 데이터
서비스 제공자
개인데이터를 수집/이용하여 마이데이터 서비스를 제공하는 모든 기업, 기관

3. 마이데이터 사업의 산업별 주요 제공정보 범위 및 활성화 방안

1). 마이데이터 사업의 산업별 중 제공정보 범위

산업 주요 정보제공 범위 주요 서비스
금융 예·적금 계좌 잔액 및 거래 내역 - 저축, 재테크 방안 안내 등을 통한 자산 형성 지원
카드 결제 내역, 청구 금액 다양한 카드 사용 혜택 제공 및 합리적인 소비습관 개선 지원
통신 통신료 납부·청구 내역, 소액 결제 이용 내역 - 통신정보 기반 금융 상품, 유통 정보 기반 금융 상품 등 고부가가치 혁신 서비스 제공
공공 국세·관세·지방세 납세증명, 국민· 공무원 연금보험료 납부내역 - 주요 세금 납세 안내와 납세 증명서 발급 서비스 제공

2). 보안측면 마이데이터 활성화 방안

구분 방안 설명
정책 - 기준, 범위 명확 구체적 협의, 조율 필요
- 이해관계자 참여 기업, 기관 적극 참여
기술 - 표준화, 규격화 다양한 출처의 데이터 표준화 
- 이동시 보안기술 정보 유출, 침해문제 처리
경제

- 다양산업 확대 타사업 및 다양한 분야 확대
- 스타드업 육성 의도적으로 스타드업 육성 

[빅데이터/인공지능 목차]

 

 

1. 통계적 가설검증 개요(Statistical Hypothesis Testing)

  • 표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞는지 통계적으로 검정하는 분석 방법( 귀무가설과 대립가설을 통해 통계적 가설검정 수행)

 

2가지 상반되는 가설

귀무가설 H0
Null hypothesis
직접 검정 대상이 되는 가설(귀무가설은 기각이 목표)
-True 가능성이 적어 버릴 것이 예상되는 가설
-귀무가설은 옳다는 가정하에 시작
대립가설 H1
Alternative Hypothesis
귀무 가설에 대립되는 가설(대립가설은 채택이 목표)
-귀무 가설이 기각될 때 받아들여지는 가설
-새로운 주장 또는 실제로 입증 하고픈 가설
-표본으로부터 확실한 근거에 의해 입증하고자 하는 가설

 

2. 관련 용어

용어 설명
통계분석 방법 표본통계량의 표본분포, 검정통계량 계산 등 고려한 방법
검정통계량 (Test Statistic) 표본통계량이 Ho에서 모수(Parameter)에 대해 예측하는 수준에 얼마나 근접했는지 판단하는 기준
=(표본통계량-모수의 귀무가설값) / 표본통계량 표준오차
가설검정에서 표본통계량을 검정통계량이라함
검정통계량은 x축 좌표 구함
유의수준(α) H0(귀무가설)이 참이라는 전제하에 표본에서 계산된 검정통계량값이 표본분포에서 관찰될 확률
귀무가설Ho가 참일 때 대립가설 H1을 채택하는 오류를 범할 확률의 최대 허용한계
임계치 가설기각과 비기각(수용)지역을 구분하는 검정통계량 값
기각역/수용역 Ho기각: P-value < 유의수준 or 검정통계량 > 임계치
Ho수용: p-value > 유의수준 or 검정통계량 < 임계치
유의수준이 정해졌을 때 검정통계량 분포에서 유의수준 크기에 해당하는 영역

 

3. 통계적 가설검증 절차 및 그래프 표현

1) 통계적 가설 검증 절차

순서 절차 설명
1 가설 선정 (통계)가설 H1, H0의 설정
2 검정 방법 선택 통계분석방법 및 검정통계량 선택
3 유의수준 결정 통계적 유의 수준(α) 결정
4 통계 분석 통계분석(검정통계량 계산)
5 비교 평가 계산된 검정통계량의 p값을 유의수준(α)과 비교
6 결과 적용 H0의 기각 혹은 수용 결정

2) 통계적 가설 검증 그래프 표현

 

4. P-VALUE와 유의 수준

1) P-VALUE

  • 주어진 통계량에서 귀무가설 H0를 기각할 수 있는 최소의 유의수준(유의확률 = p-value)
  • 귀무가설이 맞다고 가정할 때 얻은 결과보다 더 극단적인 결과(통계값, statistics)가 실제로 관측될 확률

2) 유의수준

  • 귀무가설을 기각하기 위한 반대의 증거가 어느 정도 강해야 하는지를 의미하는 수
  • 귀무가설을 유지하기 위한 최소한의 확률이 어느 정도인지를 정하는 수준

+ Recent posts