[TOPCIT 목차]

 

1. 데이터웨어하우스(DW: Data Warehouse)의 개념과 특징

) 데이터웨어하우스의 개념

  • 수년 간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 관점에서 분석할 수 있도록 하는 통합 시스템 또는 데이터베이스

) 데이터웨어하우스의 특징

특징 설명
주제지향적
(Subject Oriented)
데이터 업무가능별로 관리되는 다수의 운영계 데이터를 전사 관점에서 의사결정에 필요한 특정 주제의 데이터만을 저장하며 그 외의 데이터는 포함하지 않음
통합적
(Integrated)
전사적인 데이터 표준화를 통하여 데이터의 정합성과 물리적 통일성을 갖는 구조
운영계로부터 데이터 획득 시 데이터 통합을 위한 일련의 데이터 변환 작업을 수행
시계열적
(Time Variant)
과거와 현재의 경향에 대한 분석 및 미래에 대한 예측을 위하여 데이터를 일련의 Snapshot 형태로 오랜 기간 동안 보유
이력 데이터를 통하여 시간 경과에 따른 데이터 변화 과정을 파악 가능
비휘발성
(Nonvolatile)
데이터웨어하우스는 운영계 데이터베이스에서 데이터가 한번 적재되면 이후에 삭제 및 수정이 불가능한 조회 전용 데이터베이스
운영계 데이터는 수정이 발생하면 기존 데이터가 지워지지만 데이터웨어하우스의 데이터는 각 시점에 있는 데이터의 이력을 모두 저장

 

2. 데이터웨어하우스 모델링

) 데이터웨어하우스 모델링의 정의

  • OLTP 시스템을 위한 일반적인 E-R 모델링과는 달리 대용량 데이터를 다양한 관점에서 빠른 성능으로 분석할 수 있도록 구성하는 데이터 분석 관점의 데이터 모델링 기법
  • 일반적으로 최종사용자 또는 분석가가 정보 분석을 쉽게 할 수 있도록 데이터를 팩트(Fact) 테이블과 차원(Dimension) 테이블 형태로 구성

데이터웨어하우스 모델링 구성요소

구분 설명
팩트(Fact) 테이블 중심 테이블로서 관련성이 높은 Measure들의 집합
Measure란 정보 분석 목표를 관찰할 수 있는 측정 데이터로서 금액, 건수, 시간 등
차원(Dimension) 테이블 부속 테이블로서 각 팩트를 분석하는 관점
차원 테이블은 복수의 속성을 가지고 있으며, 이를 통해 다양한 관점의 데이터 분석이 가능

) 데이터웨어하우스 모델링 기법

  • 데이터웨어하우스 모델은 정보분석을 쉽게 할 수 있도록 데이터를 팩트(Fact) 테이블과 차원(Dimension)에 테이블 형태로 구성하는데, 여기서 차원 테이블의 정규화 여부에 따라 스타 스키마와 스노우플레이크 스키마 기법으로 분류
연산자 설명
스타 스키마
(Star Schema)
팩트 테이블과 차원 테이블로 데이터를 분리하여 설계하는 모델링 기법
차원 테이블의 데이터가 정규화 되어 있지 않아 데이터 중복이 발생
이해하기 쉽고 조인 수가 적기 때문에 질의 성능이 좋지만, 데이터 중복으로 인한 데이터 일관성의 문제가 발생할 수 있음

스노우플레이크 스키마
(Snowflake Schema)
스타 스키마의 차원 테이블을 완전 정규화 시키는 모델링 기법
차원 테이블의 정규화로 데이터의 중복이 적고, 적은 적재 공간을 사용하지만 스타 스키마에 비해 조인 횟수가 늘어나 성능 저하의 우려가 있음

 

3. ETL(Extraction, Transformation, Loading)의 개념

  • 데이터를 소스 시스템에서 추출하여 정제 및 변환 후 데이터웨어하우스에 적재하는 작업까지의 전 과정을 의미하며 데이터웨어하우스를 구성하는 구성요소 간에 데이터 일관성과 통합성을 유지시키는 역할을 수행
  • ETT(Extraction, Transformation, Transportation)

ETL의 각 단계별 작업

단계 주요작업
추출
(Extraction)
 
• 원본 파일 또는 운영계 데이터베이스로부터 데이터웨어하우스에 저장될 데이터를 추출하는 단계
• 과거에는 일 단위 또는 월 단위의 주기로 추출하였으나, 최근에는 비즈니스 요건에 따라 데이터베이스 로그를 이용하여 실시간으로 데이터를 추출하는 경우도 존재함
변환
(Transformation)
 
• 추출한 데이터를 정제하고 이를 데이터웨어하우스 데이터 형태에 맞게 변환하는 단계
• 데이터 품질에 문제가 있는 데이터의 경우 기준 데이터 또는 업무 규칙에 따라 데이터 정제(Cleansing)을 수행
• 원본 데이터의 형식을 데이터웨어하우스 데이터 형식에 맞게 데이터 변환 가공을 수행함
적재
(Loading)
 
• 변환 가공된 데이터를 데이터웨어하우스로 전송하여 저장하고 필요한 인덱스를 생성하는 단계
• 전체 갱신 및 부분 갱신 기법이 있음

 

4. OLAP(Online Analytical Processing)의 개념 및 탐색 기법

) OLAP의 개념

  • 최종 사용자가 다차원 정보에 중간 매개자나 매개체 없이 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정
  • 최종 사용자는 ETL을 통해 추출 변환된 운영 데이터가 데이터웨어하우스 또는 데이터마트에 저장되면 이를 OLAP을 이용하여 분석

) OLAP의 탐색 기법

  • OLAP은 최종 사용자가 데이터를 다양한 관점과 요약 수준에서 분석하기 위해서 다양한 탐색 기법을 제공

OLP 주요 탐색 기법

탐색기법 설명
Drill Down  특정한 분석 주제에 대하여 높은 요약 수준에서 낮은(상세한) 요약 수준으로 단계적으로 접근하는 탐색 기법
 : 시간차원: 년->월->
Roll Up  Drill Down과 반대 개념
 특정한 분석 주제에 대하여 낮은 요약 수준에서 높은 요약 수준으로 단계적으로 접근하는 탐색 기법
 : 시간차원: 일->월->
Drill Across  하나의 분석 주제에 대한 특정 분석 관점을 이용하여 다른 분석 주제로 접근하는 탐색 기법
Pivot  특정한 분석 주제에 대하여 분석 관점의 축을 바꾸는 탐색 기법
Slice  한 차원의 멤버나 그 이상의 멤버에 대하여 특정한 값을 선택하여 부분 집합을 생성하는 탐색 기법
Dice  두 개 이상의 차원을 Slice하여 부분집합에 생성하는 탐색 가법

 

5. 데이터 마이닝(Data Mining)의 개념 및 알고리즘

  • 대용량의 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환하여 기업의 의사결정에 적용하는 일련의 과정

데이터 마이닝 알고리즘

알고리즘 설명
연관분석
(Association)
• 거래 데이터 등에서 관련성이 강한 데이터 조합을 통해 패턴을 발견하는 분석 알고리즘
Apriori 알고리즘 등
• 주로 오프라인 판매점에서의 분석을 통한 상품 배치, 온라인 쇼핑몰에서의 자동화된 연관 상품 추천 등에 활용
순차분석
(Sequence}
• 연관 분석에 시간의 개념을 첨가하여 시간의 흐름에 따른 항목들의 상호 연관성을 탐색하는 분석 알고리즘
• 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생가능성을 예측
Apriori 알고리즘, GSP(Generalized Sequential Patterns)
분류
(Classification)
• 데이터 집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성(범주형)의 값(범주값)을 분류하는 트리 형태의 모델을 생성하는 분석 알고리즘
• 의사결정나무 알고리즘 등
군집분석
(Clustering)
• 주어진 레코드(고객, 상품)들을 여러 가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 알고리즘
K-Means 알고리즘, EM 알고리즘 등

 

+ Recent posts