[TOPCIT 목차]

 

01. 시스템 아키텍처의 개념

 . 시스템 아키텍처의 이해

 

  1) 시스템 아키텍처의 개요

     - 정의 : HWSW 아키텍처를 기반으로 시스템이 서비스를 제공하기 위한 아키텍처

      . 광의의 정의 : 정보시스템 구축을 위한 AA, DA, TA 측면의 모든 아키텍처

      . 협의의 정의 : 서버, 스토리지, NW, 보안등 HW장비와 OS, MW등의 일정 부분의 SW들의 구성과 관계를 정의한 문서

 

 2) 시스템아키텍처 정의

    - 국제 시스템엔지니어링 협회(INCOSE)의 정의

     . 시스템 구성항목과 인터페이스, 프로세스, 제약 조건, 동작방법 등의 측면에서 정의된 기초적인 통합 시스템 구조

    - 광의의 시스템 아키텍처 정의

     . 조직 목표 달성을 위한 업무프로세스를 지원하기 위한 정보시스템 구조를 정의한 문서

구분 설명
기술 아키텍처 - HW구조(서버,NW,보안)와 응용 프로그램이 동작하기 위한 MW 배포 구조 정의
데이터 아키텍처 - 데이터 무결성 보장 위한 데이터 구조
응용 아키텍처 - SW컴포넌트의 정의, 관계, 제약사항 정의

  - 협의의 시스템 아키텍처 정의

    . 기술 아키텍처를 의미 즉 HW, SW, 보안 등 컴포넌트/상호작용/제약사항을 정의하는 원칙과 지침

    . DB서버, 미들웨어와 서버, 스토리지, NW HW의 배치와 연결방식 정의

  . 정보시스템의 구성요소

   - 서버 : 정보시스템의 계산능력 제공, 로직/데이터 처리

    . 구성 : HW, OS, MW, 응용프로그램

    . 설계 : 서버용량, 대수, 배치방식, 역할 등 정의

    . 유형 : 메인프레임, 유닉스 서버, x86서버(사용증가 추세)

    . 서버 역할 사례

     _ 웹서버(Web Server) : 사용자 요청응답, 웹 페이지 구성, 화면 제공

     _ 응용서버(WAS, Web Application Server) : 로직 처리, DB서버/웹서버로 전달

     _ DB서버(Database Server) : 데이터 생성, 요청, 수정, 삭제

 

- 네트워크 : 정보시스템 구성요소 간 통신망 구성

 . 역할 : 서버들 간의 통신, 서버와 스토리지 통신, 내부와 외부 NW 통신

 . 장비 : 스위치, 라우터, 로드밸선서(L4/L7 Load Balancer), 브리리(Bridge), 무선 AP(Access Point)

 

- 스토리지 : 정보시스템의 데이터 저장소

구분 유형 설명 사례
저장방식 블록 스토리지 - 고정된 블록 단위 저장, OS(윈도우, 리눅스, 유닉스)
파일 스토리지 - 파일단위 저장 NAS(Network Attached Storage)
오브젝트 스토리지 - 오브젝트단위 저장 클라우드 스토리지
연결방식 DAS(Direct Access Storage) - 서버 내부 장착 IED, SATA, SAS
NAS(Network Attached Storage) - 네트워크 통해 연결 NFS, CFS, AFS
SAN(Storage Area Network) - 전용 네트워크 이용 SAN, iSCSI, FCoE

- 보안 : 정보, 네트워크 보호

구분 장비 설명
.외부 NW 사이 Anti DDoS - DDoS 공격방어
방화벽 - 트래픽 감시, 로깅, 차단
IPS/IDS - 이상트래픽/오용 방지
웹방화벽 - 웹서비스 트래픽 로깅, 감시, 차단
내부 NW 접근제어 솔루션 - 서버 접근 허가, 거부, 접근통제

 02 시스템 아키텍처 유형

 

  . 시스템 아키텍처 유형

   - 웹서비스 중심 : 모바일 장비 증가로 인한 웹서비스 제공

   - 중앙 집중형 구조 : 증가하는 클라우드 서비스에 적합

 

 . 시스템 배치 방식에 따른 시스템 아키텍처 분류

  1) 중앙 집중형 아키텍처

     - 통합센터에서 시스템과 데이터 저장, 운영, 대용량 서버, 통합 DB 구성

     - 장점 : 시스템 구성 간단, 데이터 무결성 보장 용일, 관리/운영 편이성, 장애 신속 대응

     - 단점 : 통합센터 장애 시 모든 서비스/업무 중단(SPOF), Peak Time 부하 집중

 

2) 지역별 분산형 시스템 아키텍처

   - 지역별로 시스템과 응용시스템 분산 운영 방식, 지역별 중소형 서버 구축

   - 장점 : 부하분산 효과, 장애발생시 해당지역만 중단

   - 단점 : DB의 데이터 무결성 관리 어려움, 시스템 구성/관리 복잡

 

 다. 응용 프로그램 제공방식에 따른 분류

  1) 클라이언트-서버 아키텍처

     - 업무 규모/환경에 따라 서버와 클라이언트에 기능분리, 서비스 제공

     - 장점 : 사용자 인터페이스 편의성 향상(클라이언트에서 화면구성)

     - 단점 : 구성 복잡, 개발/관리 어려움

     - 유형 : 게임, 채팅, FTP서버, 터미널 서버

 

  2) 웹 시스템 아키텍처

   - 서버에 모든 기능 구현, 클라이언트에서 웹브라우저로 서비스 이용하는 아키텍처

   - 구성 : 웹서버, 웹응용서버, DB서버

   - 특징 : 미들웨어를 통한 안정적 성능보장, 프로그램 재사용성 높음, PC/모바일 모두 이용 가능

 

 . 시스템 계층에 따른 분류

    - 논리적 Layer 구조

구분 설명
Presentation Layer - 응용프로그램의 최상위 위치, 정보/서비스 제공
Business Logic Layer - 비즈니스 로직 구동 레이어, 필요 데이터 결정 후 데이터 레이어에 요청
Data Layer - DB등 리소스에 접근하여 데이터 읽기/쓰기 수행

 

   - 물리적 N-Tier 구조

구분 설명
2-티어 아키텍처 - 소규모시 속도 빠름, 구현 용이
- 사용자 증가시 속도 저하, 확장성/재사용성 저하
서버 - 데이터 저장, 처리
클라이언트 - 비즈니스 로직과 프리젠테이션 처리
3-티어 아키텍처 - 유연성, 확장성 용이, DB객체 참조권한 관리 용이, 배포 유연
- 개발환경 복잡, 미들웨어/하드웨어 추가구입 필요
클라이언트 - 프리젠테이션 처리
응용서버 - 비즈니스 로직 처리
DB - Data 처리

 03 서버의 스택구조  

구성 설명
응용 프로그램 - 사용자에게 서비스 제공
미들웨어/플랫폼 - 유연성, HW독립성 지원, 웹서버, WAS서버, DBMS서버
운영체제 - HW 추상화, SW에 서비스 제공
컴퓨터 하드웨어 - CPU, 메인메모리, 보조기억장치 등 HW

 

1.서론

- 메타버스와 NFT의 기술 및 시장 동향에 대해 정리

- MBN (Metaverse - Block chain - NFT)의 개념 및 사례

 

2.메타버스의 개념 및 핵심기술

- 메타버스는 실세계와 디지털 가상세계가 공존할 수 있는 공간을 뜻하며 가상공간에 수 많 은 사람들은 각각의 콘텐츠들로 모이게 되고 해당 공간에서 현실 세계와 같은 삶을 살아가게 된다

   1) 메타버스 구성 요소

-메타버스를 구성하기 위해 기존의 기술들을 융ㆍ복합하여 구성하고 있다. 

   2) 메타버스 유형 및 특징

-증강현실(Augmented Reality): 디바이스를 이용해 가상의 정보를 2D, 3D 형태로 현 실 세계에 적용하는 것으로 대표적으로 차량 내부 HUD(Head-up Display), 게임인 마인크래프트 어스 등이 있음

-라이프 로깅(Lifelogging): 사람과 사물에 대한 일상 정보를 캡처, 저장, 공유하는 기술 로 대표적으로 웨어러블 디바이스, 블랙박스 등의 분야에 적용 중

- 거울세계(Mirror World): 실세계의 모든 것들을 최대한 사실적으로 반영하도록 구축된 가상의 디지털 환경을 의미하고 대표적으로 구글어스는 전 세계 지역의 사진을 주기적 으로 업데이트하여 실세계를 그대로 반영함

-가상세계(Virtual World): 실세계와 유사하게 디지털 데이터로 구축한 세계를 의미하며 게임, SNS 등 다양한 서비스들이 있고 AR/VR 기술 발달로 인해 가상세계의 관심이 높아짐

   

3.국내외 메타버스 기술 및 시장현황

- 구글(Google), 마이크로소프트(Microsoft), 페이스북(Facebook), 엔비디아(NVIDIA), 네이버(Naver), 카카오(Kakao) 등 국내외 기업들은 좀 더 현실감 있는 가상세계를 발전시 키기 위해 메타버스 기술 발전에 힘쓰고 있다.

 

- 2020년대 메타버스의 재조명이 시작되었고 3D 가상공간에 대한 수요가 증가하였다.

- 시공간의 제약이 없어 경제ㆍ사회 활동을 할 수 있는 메타버스는 지속적으로 발전할 것으로 예상된다

- 글로벌 메타버스 시장규모

4.NFT 개념, 구조 및 거래방식

   1) NFT의 개념

-“대체 불가능한 토큰”이라는 뜻으로, 특정한 자산을 나타내는 블록체인 기술을 포 함하고 있는 디지털 파일이고, 고유성을 갖고 있어 대체 불가능한 토큰이다

   2) NFT의 구조

Smart Contract 소유권 확인/양도 기능 등을 수행하며 블록체인에 직접 저장
Metadata 소유권 확인/양도 기능 등을 수행하며 블록체인에 직접 저장
Media Data 원본 데이터를 의미하며 온체인(On-chain)의 경우는 블록체인에 저장하고 오프체인(offchain)은 외부 저장매체에 저장

 

5.NFT 국내외 시장동향

-블록체인 데이터 플랫폼 기업 체이널리스는 2022년 NFT와 가상자산에 대한 전망을 공개 했는데, NFT의 시장규모는 약 269억 달러 규모로 예상하였다[13].

- NFT 실적이 가장 높은 분야를 살펴보면 콜렉터블 NFT, 게임 NFT, 아트 NFT, 메타버스 NFT, 유틸리티 NFT이다.

- 콜렉터블 NFT는 판매량은 270만 건, 총 거래량 60억 달러 이상이다. 한 번이라도 거래가 발생한 지갑 수를 뜻하는 활성 지갑 수는 50만 개 이상이다.

    

6.MBN(Metaverse - Block-chain - NFT)

    1) 메타버스와 NFT결합

- 탈중앙형 메타버스에서는 소유권을 증명해줄 주체가 없고, NFT가 이러한 역할을 대체하게 되며 메타버스 내에서 만들어진 UGC(user-generated content) 에 대한 소유권을 부여하고 거래가 가능해진다 

    2) 메타버스 플랫폼에서의 NFT 거래

-메타버스 플랫폼에서는 가상 디지털 자산거래와 가상환경의 비즈니스를 지원하는 완벽한 환경이다.

-예시,가상환경 디자이너들이 패션 샵 이나 아이템 샵을 오픈하여 아바타에 필요한 패션 아이템들을 판매하게 되는데 명품 브랜 드들은 ‘로브록스’나 ‘제페토’ 등의 메타버스에서 아바타 샵을 입점하고 사용자가 자신의 아 바타를 원하는 방식으로 꾸미고 SNS 활동도 병행 가능하도록 지원한다

 

    3) 메타버스와 NFT의 사례

- 게임산업

- 게임 사업 외에도 패션과 메타버스ㆍNFT의 융합이 가속화됨에 따라 이를 혼합한 ‘메타패 션(meta fashion)’이 글로벌 트랜드로 떠오르고 있다. 

7.결론

- 메타버스와 NFT는 본 고에 기술한 것과 같이 다양한 이점이 있기 때문에 성장 가능성의 폭이 넓다고 할 수 있다.

- 메타버스와 NFT 분야를 결합한 MBN (Metaverse Block chain NFT) 비즈니스가 출현에 관심을 가져야할 필요가 있다.

- 메타버스와 NFT 분야 고려사항

가상화폐 측면 -가상화 폐의 유동성 문제
-가상화폐에 대한 법적인 문제 등 
보안 측면 -범죄문제(해킹 범죄, 금융범죄 등)가 발생 가능성
-개인정보유출
경제 측면 -플랫폼 독점
기타 -중독문제
-저작권 침해

 

 

  

1.서론

- 램섬웨어(Ransomware)란 몸값 'Ransome' 과 소프트웨어 'Software'의 합성어이며, 파일 암호화를 통해 금전을 요구하는 악성코드이다.

- 국내 2015년 처음 발견되었으며, 2017년 국내 웹 호스팅 업체 인터넷나야나가 에레버스(Erebus) 랜섬웨어에 감염된 사건과 전 서계를 대상으로 한 워너크라이(WannaCry) 랜섬웨어의 유포로 국내에도 랜섬웨어가 알려지기 시작했다.

- 최근에는 파일 암호화와 더불어 기업 기밀 정보 및 고객정보를 탈취하여 이를 빌미로 댓가를 요구하기도 한다.

- 피해를 입은 기업들은 기업의 기밀 정보와 고객 정보 등의 유출되어 소송등의 문제로 번지기도 하면, 서버 및 pc 암호화로 인한 업무 마비 와 서비스 중단과 같은 2차 피해가 발생하기도 한다. 

- (정부 랜섬웨어 예방법 안내 및 복구 프로그램 운영) 과학기술정통부 랜섬웨어 대응 지원반 운영하고 있고 글로벌하게 구성된 NOMORERANSOM 프로젝트를 통해 랜섬웨어 예방법 안내 및 복구 프로그램 제공하고 있다.

 

- (국내외 주요 기업 랜섬웨어 피해사례)

- (국내 랜섬웨어 피해금액)

- 2015년 부터 2021년까지 기업이 피해금액은 1090억원에서 2조 5000억원을 23배 증가

2.랜섬웨어 유포 방식

- 1.RDP 2.E-mail Phishing 3.Software취약점 4.기타 순

1)원격 데스크톱 프로토콜(RDP)

- RDP 기본 포트는 3389이며 , 네트워크스캔닝 을 통해 RDP 사용여부를 확인하고 유효한 자격 증명은 Brute force공격을 이용하여 획득하기도 하지만, 다크웹 사이트 등을 통해 대량의 작업증명을 구입하기도 한다.

2)피싱 메일

-랜섬웨어 유포시 가장 많이 사용되는 방식이며, 다양한 사회 공학적 기법을 사용해서 피싱 메일을 전송한다,

3)소프트웨어 취약점

종류 공격 구성도
Log4j 취약점
-Apache 소프트웨어 재단에서 개발한 JAVA 기반 로깅 유틸리티이며, Log4Shell (CVE-2021-44228)은 임의코드 실행을 허용하는 Log4j 제로데이 취약점이다

ProxyLogon 취약점

Microsoft Exchange Server(전자메일, 일정 관리, 메시지 및 협업 등을 위한 소프트웨 어)에 대한 원격 코드 실행 취약점 4가지(CVE-2021-26855, CVE-2021-26857, CVE2021-26858, CVE-2021-27065)를 ProxyLogon이라고 하며, 사용자 인증 과정 없이 사 용자 권한을 획득하고 웹셸(Webshell)을 생성할 수 있는 취약점을 포함하고 있다.
ProxyShell 취약점 Microsoft Exchange Server에 대한 3가지 취약점(CVE-2021-34473, CVE-2021-34523, CVE-2021-31207)을 사용하는 제로데이 취약점을 의미하며, 원격에 서 서버 제어 및 임의의 코드 실행이 가능하다

Active Directory 취약점 Microsoft Active Directory 윈도용 환경에서 사용하기 위해 개발한 LDAP(Lightweight Directory Access Protocol) 디렉터리 서비스 도메인 컨트롤러에 대한 공격을 허용하는 Microsoft Netlogon 프로세스의 암호화 취약점이 ZeroLogon이며[10], 해당 취약점을 통 해 도메인 컨트롤러를 제어할 수 있다

   

3.랜섬웨어 암호화방식

- 램섬웨어는 공개키 알고리즘과 대칭키 알고리즘을 동시에 사용해서 파일 암호화를 수행하는 하이브리드 시스템을 사용하는 경우가 대부분이다. 파일암호화에는 속도가 빠를 대칭키 알고리즘을 이용하고, 공개키 알고리즘은 대칭키를 암호화하는데 사용한다.

1) 램섬웨어 암호화 과정

1.공격자는 공개키 알고리즘 쌍을 생성 후, 공개키는 실행 파일에 탑재한다.(평문/base64/rc4/aes)

2.파일 암호화를 위한 대칭키를 생성한다.

3.파일 암호화에 사용한 대칭키를 공격자의 공개키로 암호화해서 보관한다.

2) 램섬웨어 암호화 알고리즘

- 파일 암호화에는 AES 알고리즘을 가장 많이 사용하며, 파일 암호키 암호화에는 RSA 알고리즘이 가장 사용률이 높다. - -AES와 RSA는 안전하다고 알려진 암호 알고리즘이므로, 암호 알고리즘의 취약점을 찾아내 복호화하는 것은 어렵다.

다만, 취약점이 발견될 때는 복호화가 가능한 경우가 있다.

따라서, 랜섬웨어 사후 대응 시에는 랜섬웨어 분석을 통해  복구 또는 복호화 가능성을 확인하는 작업이 필요하다.

 

4.결론

랜섬웨어의 감염은 금전적인 피해뿐만 아니라 데이터 탈취 및 업무 마비 등의 2차 피해까 지 발생시킨다.

앞으로 도 랜섬웨어는 다양하고 더욱더 정교해진 방식으로 진화할 것으로 예상되므로 정부나 기업 에서는 랜섬웨어 예방 및 대응 체계를 마련하는 것이 시급하다.

1. 데이터 모델링의 개념 및 절차

 1) 데이터 모델링의 개념

  - 현실세계를 추상화하여 데이터베이스화 하는 과정

  - 특징 : 추상화, 단순화, 명확화

  2) 데이터 모델링 절차

  개념적 모델링 -> 논리적 모델링 -> 물리적 모델링

 

2. 데이터 모델링의 절차

 1) 개념적 모델링

  - 현실세계에서 나타나는 정보구조를 추상적으로 개념화하는 단계

  - 엔터티, 식별자, 관계, 속성 등이 도출

 2) 논리적 모델링

  - 비즈니스 정보의 논리적 구조와 규칙을 명확하게 표현하는 기법 또는 과정

  - 정규화 작업 수행, ERD를 테이블로 변환

 3) 물리적 모델링

  - 논리적 데이터 모델을 컴퓨터 하드웨어 시스템에 표현하는 단계

  - 물리적 저장구조, 장치, 접근 방법 등을 정의

  - 성능 고려한 반정규화 수행

  - 데이터형식, 제약조건, 인덱스 정의

 

3. 다양한 ER 표기법

4. Chen 모형 기반의 ER표기법

1) 엔터티(Entity)

  - 실세계에 존재하는 의미 있는 하나의 정보 단위

  2) 관계(Relationship)

  - 엔터티들 사이의 연관성을 나타내며 마름모로 표시

  - 대응수(Cardinality) : 관계에 참여할 수 있는 인스턴스의 최대 수

  3) 속성(Attribute)

  - 엔터티 또는 관계의 본질적 성질을 타내며 타원으로 표시

  - 식별자는 속성명에 밑줄 표시

 

5. 확장 ER(EER: Extended Entity-Relationship) 모델

 - ER 모델에 몇가지 개념 추가

 1) 일반화 : 하나의 엔터티 타입을 다수의 하위 레벨 엔터티 타입으로 분리(IS-A관계)

 2) 특수화 : 다수의 엔터티 타입을 하나의 상위 레벨 엔터티 타입으로 통합하는 것(IS-A관계)

 3) 집단화 : 여러 엔티티의 집합으로 새로운 엔티티를 정의하는 것(IS-PART-OF 관계)

 

6. 또 다른 ERD 표기법: Crow's Foot Model

1) 엔터티

  - 엔터티는 직사각형으로 표현하며 엔터티명은 상단, 속성은 하단에 기재

2) 속성

  - 기본속성 : 업무분석 통해 정의

  - 설계속성 : 업무상 존재하지는 않지만 설계하면서 도출해낸 속성

  - 파생속성 : 다른 속성으로부터나 계산이나 변형이 되어 생성된 속성

 

3) 관계

  - 식별관계/비식별관계

- 슈퍼타입/서브타입

 

7. 연결함정(Connection Trap)

- 데이터 모델에서 관계가 형성되어 있음에도 원하는 정보를 정확하게 찾아가지 못하는 현상

 1) 부채꼴 함정

 - 엔터티 A, B 사이의 N:1 관계, 엔터티 B, C 사이의 1:N 관계가 형성되었을 때 발생

 2) 균열 함정

 - 필수 관계가 아닌 선택 관계가 존재할 때, 정보의 흐름이 끊겨서 원하는 정보를 찾을 수 없는 현상

 

8. 객체-관계 매핑(ORM: Object-Relational Mapping)

- 관계형 데이터베이스의 테이블과 객체지향설계에서 사용되는 클래스간의 대응

 1) 클래스 변환

 - 클래스 <-> 테이블

 - 클래스 인스턴스 <-> 테이블 레코드

 - 클래스 속성 <-> 테이블 열

 

9. 무결성과 키

 1) 데이터 무결성 : 데이터의 무효갱신으로부터 데이터를 보호하여 정확성, 유효성, 일관성, 안전성을 유지하려는 성질

 - 영역 무결성 : 속성값을 원자성을 가지며, 해당 도메인에서 정의된 값

 - 키 무결성 : 테이블의 모든 레코드는 서로 식별 가능

 - 엔터티 무결성 : 모든 테이블은 기본키가 반드시 존재, 기본키는 반드시 유일값을 가지되 NULL 불가

 - 참조 무결성 : 참조 관계에 있는 두 테이블의 데이터가 항상 일관된 값을 가지도록 유지

 - 사용자 정의 무결성 : 특정 업무규칙 정의

 

2) 키

 - 슈퍼키 : 레코드를 유일하게 식별해낼 수 있는 속성 집합

 - 후보키 : 기본키가 될 수 있는 후보, 유일성과 최소성 만족

 - 기본키 : 후보키 중 선택된 고유한 식별자

 - 외래키 : 테이블 A가 테이블 B를 참조할때 테이블A의 외래키는 테이블B의 레코드를 유일하게 식별할 수 있는 키

 

 

[TOPCIT 목차]

 

1. 데이터웨어하우스(DW: Data Warehouse)의 개념과 특징

) 데이터웨어하우스의 개념

  • 수년 간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 관점에서 분석할 수 있도록 하는 통합 시스템 또는 데이터베이스

) 데이터웨어하우스의 특징

특징 설명
주제지향적
(Subject Oriented)
데이터 업무가능별로 관리되는 다수의 운영계 데이터를 전사 관점에서 의사결정에 필요한 특정 주제의 데이터만을 저장하며 그 외의 데이터는 포함하지 않음
통합적
(Integrated)
전사적인 데이터 표준화를 통하여 데이터의 정합성과 물리적 통일성을 갖는 구조
운영계로부터 데이터 획득 시 데이터 통합을 위한 일련의 데이터 변환 작업을 수행
시계열적
(Time Variant)
과거와 현재의 경향에 대한 분석 및 미래에 대한 예측을 위하여 데이터를 일련의 Snapshot 형태로 오랜 기간 동안 보유
이력 데이터를 통하여 시간 경과에 따른 데이터 변화 과정을 파악 가능
비휘발성
(Nonvolatile)
데이터웨어하우스는 운영계 데이터베이스에서 데이터가 한번 적재되면 이후에 삭제 및 수정이 불가능한 조회 전용 데이터베이스
운영계 데이터는 수정이 발생하면 기존 데이터가 지워지지만 데이터웨어하우스의 데이터는 각 시점에 있는 데이터의 이력을 모두 저장

 

2. 데이터웨어하우스 모델링

) 데이터웨어하우스 모델링의 정의

  • OLTP 시스템을 위한 일반적인 E-R 모델링과는 달리 대용량 데이터를 다양한 관점에서 빠른 성능으로 분석할 수 있도록 구성하는 데이터 분석 관점의 데이터 모델링 기법
  • 일반적으로 최종사용자 또는 분석가가 정보 분석을 쉽게 할 수 있도록 데이터를 팩트(Fact) 테이블과 차원(Dimension) 테이블 형태로 구성

데이터웨어하우스 모델링 구성요소

구분 설명
팩트(Fact) 테이블 중심 테이블로서 관련성이 높은 Measure들의 집합
Measure란 정보 분석 목표를 관찰할 수 있는 측정 데이터로서 금액, 건수, 시간 등
차원(Dimension) 테이블 부속 테이블로서 각 팩트를 분석하는 관점
차원 테이블은 복수의 속성을 가지고 있으며, 이를 통해 다양한 관점의 데이터 분석이 가능

) 데이터웨어하우스 모델링 기법

  • 데이터웨어하우스 모델은 정보분석을 쉽게 할 수 있도록 데이터를 팩트(Fact) 테이블과 차원(Dimension)에 테이블 형태로 구성하는데, 여기서 차원 테이블의 정규화 여부에 따라 스타 스키마와 스노우플레이크 스키마 기법으로 분류
연산자 설명
스타 스키마
(Star Schema)
팩트 테이블과 차원 테이블로 데이터를 분리하여 설계하는 모델링 기법
차원 테이블의 데이터가 정규화 되어 있지 않아 데이터 중복이 발생
이해하기 쉽고 조인 수가 적기 때문에 질의 성능이 좋지만, 데이터 중복으로 인한 데이터 일관성의 문제가 발생할 수 있음

스노우플레이크 스키마
(Snowflake Schema)
스타 스키마의 차원 테이블을 완전 정규화 시키는 모델링 기법
차원 테이블의 정규화로 데이터의 중복이 적고, 적은 적재 공간을 사용하지만 스타 스키마에 비해 조인 횟수가 늘어나 성능 저하의 우려가 있음

 

3. ETL(Extraction, Transformation, Loading)의 개념

  • 데이터를 소스 시스템에서 추출하여 정제 및 변환 후 데이터웨어하우스에 적재하는 작업까지의 전 과정을 의미하며 데이터웨어하우스를 구성하는 구성요소 간에 데이터 일관성과 통합성을 유지시키는 역할을 수행
  • ETT(Extraction, Transformation, Transportation)

ETL의 각 단계별 작업

단계 주요작업
추출
(Extraction)
 
• 원본 파일 또는 운영계 데이터베이스로부터 데이터웨어하우스에 저장될 데이터를 추출하는 단계
• 과거에는 일 단위 또는 월 단위의 주기로 추출하였으나, 최근에는 비즈니스 요건에 따라 데이터베이스 로그를 이용하여 실시간으로 데이터를 추출하는 경우도 존재함
변환
(Transformation)
 
• 추출한 데이터를 정제하고 이를 데이터웨어하우스 데이터 형태에 맞게 변환하는 단계
• 데이터 품질에 문제가 있는 데이터의 경우 기준 데이터 또는 업무 규칙에 따라 데이터 정제(Cleansing)을 수행
• 원본 데이터의 형식을 데이터웨어하우스 데이터 형식에 맞게 데이터 변환 가공을 수행함
적재
(Loading)
 
• 변환 가공된 데이터를 데이터웨어하우스로 전송하여 저장하고 필요한 인덱스를 생성하는 단계
• 전체 갱신 및 부분 갱신 기법이 있음

 

4. OLAP(Online Analytical Processing)의 개념 및 탐색 기법

) OLAP의 개념

  • 최종 사용자가 다차원 정보에 중간 매개자나 매개체 없이 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정
  • 최종 사용자는 ETL을 통해 추출 변환된 운영 데이터가 데이터웨어하우스 또는 데이터마트에 저장되면 이를 OLAP을 이용하여 분석

) OLAP의 탐색 기법

  • OLAP은 최종 사용자가 데이터를 다양한 관점과 요약 수준에서 분석하기 위해서 다양한 탐색 기법을 제공

OLP 주요 탐색 기법

탐색기법 설명
Drill Down  특정한 분석 주제에 대하여 높은 요약 수준에서 낮은(상세한) 요약 수준으로 단계적으로 접근하는 탐색 기법
 : 시간차원: 년->월->
Roll Up  Drill Down과 반대 개념
 특정한 분석 주제에 대하여 낮은 요약 수준에서 높은 요약 수준으로 단계적으로 접근하는 탐색 기법
 : 시간차원: 일->월->
Drill Across  하나의 분석 주제에 대한 특정 분석 관점을 이용하여 다른 분석 주제로 접근하는 탐색 기법
Pivot  특정한 분석 주제에 대하여 분석 관점의 축을 바꾸는 탐색 기법
Slice  한 차원의 멤버나 그 이상의 멤버에 대하여 특정한 값을 선택하여 부분 집합을 생성하는 탐색 기법
Dice  두 개 이상의 차원을 Slice하여 부분집합에 생성하는 탐색 가법

 

5. 데이터 마이닝(Data Mining)의 개념 및 알고리즘

  • 대용량의 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환하여 기업의 의사결정에 적용하는 일련의 과정

데이터 마이닝 알고리즘

알고리즘 설명
연관분석
(Association)
• 거래 데이터 등에서 관련성이 강한 데이터 조합을 통해 패턴을 발견하는 분석 알고리즘
Apriori 알고리즘 등
• 주로 오프라인 판매점에서의 분석을 통한 상품 배치, 온라인 쇼핑몰에서의 자동화된 연관 상품 추천 등에 활용
순차분석
(Sequence}
• 연관 분석에 시간의 개념을 첨가하여 시간의 흐름에 따른 항목들의 상호 연관성을 탐색하는 분석 알고리즘
• 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생가능성을 예측
Apriori 알고리즘, GSP(Generalized Sequential Patterns)
분류
(Classification)
• 데이터 집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성(범주형)의 값(범주값)을 분류하는 트리 형태의 모델을 생성하는 분석 알고리즘
• 의사결정나무 알고리즘 등
군집분석
(Clustering)
• 주어진 레코드(고객, 상품)들을 여러 가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 알고리즘
K-Means 알고리즘, EM 알고리즘 등

 

+ Recent posts