01. 데이터 품질관리 프레임워크
대상 조직 |
데이터 값 | 데이터 구조 | 데이터 관리 프로세스 |
CIO/EDA (개괄적 관점) |
데이터 관리 정책 | ||
DA (개념적 관점) |
표준 데이터 | 개념 데이터 모델 데이터 참조 모델 |
데이터 표준관리 요구사항 관리 |
모델러(Modeler) (논리적 관점) |
모델 데이터 | 논리 데이터 모델 | 데이터 모델 관리 데이터 흐름 관리 |
DBA (물리적 관점) |
관리 데이터 | 물리 데이터 모델 데이터 베이스 |
DB 관리 DB 보안관리 |
사용자 (운용적 관점) |
업무 데이터 | 사용자 뷰 | 데이터 활용 관리 |
- 데이터 품질관리 ? 데이터의 품질을 향상 시키기 위해 데이터 값, 데이터 구조, 데이터 관리 프로세스 대상에 대한 활동을 수행
가) 데이터 값
① 표준 데이터 : 공통된 형식과 내용으로 정의하여 사용하는 표준 관련 데이터
ex> 표준 단어(word) 사전, 표준 도메인(domain) 사전, 표준 용어(term) 사전, 표준 코드, 데이터 표준 요소
② 모델 데이터 : 데이터 모델을 운용, 관리하는 데 필요한 데이터
- 완전성, 일관성, 추적성, 상호연계성, 최신성, 호환성 관리
ex> 모델에 대한 메타 데이터 및 DBMS 객체 정보
③ 관리 데이터 : DB를 표과적으로 운영, 관리하는 데 필요한 데이터
ex> 사용 관리 데이터, 장애 및 보안관리 데이터, 성능관리 데이터, 흐름 관리 데이터, 품질 관리 데이터
④ 업무 데이터 : 기관이나 기업의 업무 및 비즈니스를 수행하는데 필요한 데이터
ex> 소스데이터, 운영 데이터, 분석 데이터
나) 데이터 구조
① 개념 데이터 모델
정의 | - 업무 요건을 충족하는 데이터의 주제영역과 핵심 데이터 집합을 정의하고 상호 간의 관계를 정의한 모델 |
관리 항목 | - 주제영역, 핵심 엔티티, 핵심관계 |
② 데이터 참조 모델
정의 | - 데이터 아키텍처의 구축·유지관리 및 조직에서 사용하고 있는 데이터 모델의 상호 운영과 타 조직 데이터모델의 참조·재사용을 목적으로 업무영역별, 주제영역별로 표준 데이터 집합과 관리 항목들을 정의한 데이터 모델 |
관리 항목 | - 재사용이 가능한 형태의 데이터 모델로, 속성단위, 엔티티, ERD 전체 업무 영역 단위 등 - 개념 데이터 모델, 논리 데이터 모델, 물리 데이터 모델 |
③ 논리 데이터 모델
정의 | - 개념 데이터 모델을 상세화하여 논리적인 데이터 집합, 관리 항목, 관계를 정의한 모델 |
관리 항목 | - 주제영역, 엔티티, 관계, 속성 |
④ 물리 데이터 모델
정의 | - DBMS의 특성과 성능을 고려하여 논리 데이터 모델을 구체화시킨 모델 |
관리 항목 | - 주제영역, 테이블, 관계, 컬럼 |
⑤ 데이터베이스
정의 | - 물리 모델을 구현한 결과물이며 구축된 실제 데이터가 저장되는 데이터 저장소 |
관리 항목 | - 저장공간, 테이블, 제약조건, 인덱스, 트리거, DB링크, 프로시저, 뷰, 동의어, 롤 |
⑥ 사용자 뷰
정의 | - 데이터를 제공하는 정보시스템 상의 화면이나 출력물 |
관리 항목 | - 화면, 출력물 |
다) 데이터 관리 프로세스
라) 데이터 품질관리 성숙모형
① 데이터 품질 기준
- 데이터 유효성 측면 : 정확성, 일관성
- 데이터 활용성 측면 : 유용성, 접근성, 적시성, 보안성
② 데이터 품질 관리 프로세스
- 정확성, 일관성, 유용성, 접근성, 적시성, 보안성을 향상 시키기 위한 프로세스를 식별
프로세스 | 활동 | 설명 |
데이터 품질기준 수립 | DQI, CTQ 선정 | - 데이터 품질 기준정보 - DQI 등 업무영역 선정 |
프로파일링 | 대상 선정 프로파일링 | - 일반적 유형 현황 파악 - 컬럼, 관계, 패턴, 코드 등 |
BR(Business Rule) 선정 | BR 도출 및 확정 | - 각종 업무 규칙 수집 - 측정 가능형태로 선정 |
데이터 품질진단 | BR 측정 및 진단 | - 확정 BR의 측정, 진단 - 결과에 따른 현상 분석 |
개선/정제 | 데이터 정제 | - 저품질 BR 오류 분석 - 개선/정제 후 재측정 |
③ 데이터 품질 관리 성숙 수준
- 단계 : 1~5단계로 정의
- 성숙수준이 높을 수록 체계적이고 정교한 관리가 수행됨을 의미
02. 데이터 표준화
가) 데이터 표준화 개요
- 기업내 시스템별로 산재해 있는 데이터 정보요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 전사적으로 적용하는 관리 활동
- 시스템 별로 산재해 있는 데이터 정보요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것
- 데이터의 정확한 의미를 파악, 데이터의 상반된 시각적 조정하는 역할 수행
나) 데이터 표준화 필요성
필요성 | 설명 |
시스템 별 데이터 일치 요구 |
– 데이터 표준 정책 미비로 명칭 중복 관리 등 – 동일 데이터를 시스템 간 상이하게 처리 |
데이터 의미 파악 개선 필요 |
– 정보 요건 변경 시 필요 데이터 파악 시간 낭비 – 정보 사용자에게 정확한 정보 제공 어려움 |
유지보수 개선 필요 | – 정보시스템 유지보수 시 데이터 의미 파악 곤란 – 새로운 요건 반영 시 기존 데이터 파악 어려움 |
다) 데이터 표준화 구성요소
구분 | 구성요소 | 상세 설명 |
데이터 표준 | 표준 용어 | – 업무적 용어, 기술적 용어 표준 |
표준 단어 | – 용어를 구성하는 단어 표준 | |
표준 도메인 | – 컬럼의 성질(Type) 그룹핑 | |
표준 코드 | – 도메인 데이터 값까지 사전 정의 | |
데이터 표준 관리 조직 | 전사 데이터 관리자 | – 정책 결정, 검토된 표준화 승인 |
업무 데이터 관리자 | – 업무 단위 요구사항 반영, 검토 | |
업무 시스템 관리자 | – 시스템 관리 요구사항 정의 | |
데이터 표준화 절차 | 요구사항 수집 | – 개별 시스템 데이터 표준 수집 |
표준 정의 | – 표준화 정의(용어,단어,도메인,코드) | |
표준 확정 | – 표준 확정, 검토, 공표 | |
표준 관리 | – 표준 이행, 관리 절차 수립 |
- 데이터 표준화 위해 표준관리, 구조관리, 프로세스 관리 등 존재
라) 데이터 표준 정의
① 표준단어의 도출 전체 개요
- 표준단어는 모든 시스템에서 사용되고 있는 용어를 단어 단위로 분할하여 도출
- 표준단어는 전사적으로 관리하고 있는 엔티티와 속성을 개별단위로 추출
② 단어 분할
- 수집된 용어를 업무상 사용되며 일정한 의미를 가지고 있는 최소 단위의 단어로 분할
ex> 주민등록 번호 -> 주민 + 등록 + 번호
③ 이음동의어 처리
- 의미가 동일한 단어들에 대해 하나의 대표 단어를 표준으로 선정
- 최종 도출된 모든 단어들은 한글명과 영문 약어명 모두 유일해야 함
ex> 비밀번호, 암호, 패스워드를 비밀번호로 통일
④ 표준 도메인 사전 도출
- 각 속성은 임의의 도메인에 할당 되어야 하며, 하나 이상의 도메인에 복수로 할당할 수 없음
- 새로운 속성이 추가될 경우 해당 속성의 도메인을 선정, 등록해야함
ex> (용어)주민번호-(도메인명)등록번호-(타입)char(13)
⑤ 표준 코드 사전 도출
- 전사적으로 사용되고 있는 모든 코드들을 수집하여 동일 코드를 파악하고 통합하여 표준 코드를 정의
ex> 색상코드->포장이 생삭코드
⑥ 표준 용어 사전 도출
- 전사적으로 보유하고 있는 엔티티와 속성을 대상으로 추출된 표준 단어를 조합하여 표준용어를 생성
ex> (표준단어)고객, 구분, 코드, ID->(표준용어) 고객구분코드, 고객ID
마) 데이터 표준 확정
① 데이터 표준 검토 대상
- 표준 단어 사전, 표준 도메인 사전, 표준 코드 사전, 표준 용어 사전 등
② 데이터 표준에 대한 주요 검증 기준
- 유일성, 완전성, 정확성, 범용성
'TOPCIT > TOPCIT교재' 카테고리의 다른 글
XII. 데이터베이스 복구 - 이강욱 (0) | 2022.07.27 |
---|---|
빅데이터 및 NoSQL에 대한 이해 - 황선환 (0) | 2022.07.27 |
III. 데이터베이스 설계 및 구축절차 - 문경숙 (0) | 2022.07.26 |
XI. 동시성제어-윤정우 (0) | 2022.07.25 |
VI.데이터베이스 물리설계 - 손선희 (0) | 2022.07.24 |