1. 데이터웨어하우스(DW: Data Warehouse)의 개념과 특징
가) 데이터웨어하우스의 개념
- 수년 간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 관점에서 분석할 수 있도록 하는 통합 시스템 또는 데이터베이스
나) 데이터웨어하우스의 특징
특징 | 설명 |
주제지향적 (Subject Oriented) |
• 데이터 업무가능별로 관리되는 다수의 운영계 데이터를 전사 관점에서 의사결정에 필요한 특정 주제의 데이터만을 저장하며 그 외의 데이터는 포함하지 않음 |
통합적 (Integrated) |
• 전사적인 데이터 표준화를 통하여 데이터의 정합성과 물리적 통일성을 갖는 구조 • 운영계로부터 데이터 획득 시 데이터 통합을 위한 일련의 데이터 변환 작업을 수행 |
시계열적 (Time Variant) |
• 과거와 현재의 경향에 대한 분석 및 미래에 대한 예측을 위하여 데이터를 일련의 Snapshot 형태로 오랜 기간 동안 보유 • 이력 데이터를 통하여 시간 경과에 따른 데이터 변화 과정을 파악 가능 |
비휘발성 (Nonvolatile) |
• 데이터웨어하우스는 운영계 데이터베이스에서 데이터가 한번 적재되면 이후에 삭제 및 수정이 불가능한 조회 전용 데이터베이스 • 운영계 데이터는 수정이 발생하면 기존 데이터가 지워지지만 데이터웨어하우스의 데이터는 각 시점에 있는 데이터의 이력을 모두 저장 |
2. 데이터웨어하우스 모델링
가) 데이터웨어하우스 모델링의 정의
- OLTP 시스템을 위한 일반적인 E-R 모델링과는 달리 대용량 데이터를 다양한 관점에서 빠른 성능으로 분석할 수 있도록 구성하는 데이터 분석 관점의 데이터 모델링 기법
- 일반적으로 최종사용자 또는 분석가가 정보 분석을 쉽게 할 수 있도록 데이터를 팩트(Fact) 테이블과 차원(Dimension) 테이블 형태로 구성
데이터웨어하우스 모델링 구성요소
구분 | 설명 |
팩트(Fact) 테이블 | • 중심 테이블로서 관련성이 높은 Measure들의 집합 • Measure란 정보 분석 목표를 관찰할 수 있는 측정 데이터로서 금액, 건수, 시간 등 |
차원(Dimension) 테이블 | • 부속 테이블로서 각 팩트를 분석하는 관점 • 차원 테이블은 복수의 속성을 가지고 있으며, 이를 통해 다양한 관점의 데이터 분석이 가능 |
나) 데이터웨어하우스 모델링 기법
- 데이터웨어하우스 모델은 정보분석을 쉽게 할 수 있도록 데이터를 팩트(Fact) 테이블과 차원(Dimension)에 테이블 형태로 구성하는데, 여기서 차원 테이블의 정규화 여부에 따라 스타 스키마와 스노우플레이크 스키마 기법으로 분류
연산자 | 설명 |
스타 스키마 (Star Schema) |
• 팩트 테이블과 차원 테이블로 데이터를 분리하여 설계하는 모델링 기법 • 차원 테이블의 데이터가 정규화 되어 있지 않아 데이터 중복이 발생 • 이해하기 쉽고 조인 수가 적기 때문에 질의 성능이 좋지만, 데이터 중복으로 인한 데이터 일관성의 문제가 발생할 수 있음 |
스노우플레이크 스키마 (Snowflake Schema) |
• 스타 스키마의 차원 테이블을 완전 정규화 시키는 모델링 기법 • 차원 테이블의 정규화로 데이터의 중복이 적고, 적은 적재 공간을 사용하지만 스타 스키마에 비해 조인 횟수가 늘어나 성능 저하의 우려가 있음 |
3. ETL(Extraction, Transformation, Loading)의 개념
- 데이터를 소스 시스템에서 추출하여 정제 및 변환 후 데이터웨어하우스에 적재하는 작업까지의 전 과정을 의미하며 데이터웨어하우스를 구성하는 구성요소 간에 데이터 일관성과 통합성을 유지시키는 역할을 수행
- ETT(Extraction, Transformation, Transportation)
ETL의 각 단계별 작업
단계 | 주요작업 |
추출 (Extraction) |
• 원본 파일 또는 운영계 데이터베이스로부터 데이터웨어하우스에 저장될 데이터를 추출하는 단계 • 과거에는 일 단위 또는 월 단위의 주기로 추출하였으나, 최근에는 비즈니스 요건에 따라 데이터베이스 로그를 이용하여 실시간으로 데이터를 추출하는 경우도 존재함 |
변환 (Transformation) |
• 추출한 데이터를 정제하고 이를 데이터웨어하우스 데이터 형태에 맞게 변환하는 단계 • 데이터 품질에 문제가 있는 데이터의 경우 기준 데이터 또는 업무 규칙에 따라 데이터 정제(Cleansing)을 수행 • 원본 데이터의 형식을 데이터웨어하우스 데이터 형식에 맞게 데이터 변환 가공을 수행함 |
적재 (Loading) |
• 변환 가공된 데이터를 데이터웨어하우스로 전송하여 저장하고 필요한 인덱스를 생성하는 단계 • 전체 갱신 및 부분 갱신 기법이 있음 |
4. OLAP(Online Analytical Processing)의 개념 및 탐색 기법
가) OLAP의 개념
- 최종 사용자가 다차원 정보에 중간 매개자나 매개체 없이 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정
- 최종 사용자는 ETL을 통해 추출 변환된 운영 데이터가 데이터웨어하우스 또는 데이터마트에 저장되면 이를 OLAP을 이용하여 분석
나) OLAP의 탐색 기법
- OLAP은 최종 사용자가 데이터를 다양한 관점과 요약 수준에서 분석하기 위해서 다양한 탐색 기법을 제공
OLP 주요 탐색 기법
탐색기법 | 설명 |
Drill Down | • 특정한 분석 주제에 대하여 높은 요약 수준에서 낮은(상세한) 요약 수준으로 단계적으로 접근하는 탐색 기법 • 예: 시간차원: 년->월->일 |
Roll Up | • Drill Down과 반대 개념 • 특정한 분석 주제에 대하여 낮은 요약 수준에서 높은 요약 수준으로 단계적으로 접근하는 탐색 기법 • 예: 시간차원: 일->월->년 |
Drill Across | • 하나의 분석 주제에 대한 특정 분석 관점을 이용하여 다른 분석 주제로 접근하는 탐색 기법 |
Pivot | • 특정한 분석 주제에 대하여 분석 관점의 축을 바꾸는 탐색 기법 |
Slice | • 한 차원의 멤버나 그 이상의 멤버에 대하여 특정한 값을 선택하여 부분 집합을 생성하는 탐색 기법 |
Dice | • 두 개 이상의 차원을 Slice하여 부분집합에 생성하는 탐색 가법 |
5. 데이터 마이닝(Data Mining)의 개념 및 알고리즘
- 대용량의 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환하여 기업의 의사결정에 적용하는 일련의 과정
데이터 마이닝 알고리즘
알고리즘 | 설명 |
연관분석 (Association) |
• 거래 데이터 등에서 관련성이 강한 데이터 조합을 통해 패턴을 발견하는 분석 알고리즘 • Apriori 알고리즘 등 • 주로 오프라인 판매점에서의 분석을 통한 상품 배치, 온라인 쇼핑몰에서의 자동화된 연관 상품 추천 등에 활용 |
순차분석 (Sequence} |
• 연관 분석에 시간의 개념을 첨가하여 시간의 흐름에 따른 항목들의 상호 연관성을 탐색하는 분석 알고리즘 • 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생가능성을 예측 • Apriori 알고리즘, GSP(Generalized Sequential Patterns) 등 |
분류 (Classification) |
• 데이터 집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성(범주형)의 값(범주값)을 분류하는 트리 형태의 모델을 생성하는 분석 알고리즘 • 의사결정나무 알고리즘 등 |
군집분석 (Clustering) |
• 주어진 레코드(고객, 상품)들을 여러 가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 알고리즘 • K-Means 알고리즘, EM 알고리즘 등 |
'TOPCIT > TOPCIT교재' 카테고리의 다른 글
2. 네트워크 개념 - 이상희 (0) | 2022.08.01 |
---|---|
1. 시스템 개념 - 황선환 (0) | 2022.08.01 |
XII. 데이터베이스 복구 - 이강욱 (0) | 2022.07.27 |
빅데이터 및 NoSQL에 대한 이해 - 황선환 (0) | 2022.07.27 |
VII. 데이터베이스 품질과 표준화 - 안혜진 (0) | 2022.07.26 |