[빅데이터/인공지능 목차]

 

1. AI 모델 운영화 혁신, 모델옵스(ModelOps) 개요

  • 머신러닝 모델의 학습, 버전관리, 배포, 모니터, 재학습까지 모델 생명주기 관리모델의 거버넌스를 원활하게 해주는 기계학습 모델관리 방법론
  • 가트너에서 정의한 이론으로 AI 기반 시스 템 내에서의 모델의 개발, 운영  유지관리  중단없는 프로세스를 제공하는 도구
  • 특징) 모델의 프로덕션 환경 신속 투입 지원, 효율적인 모델 거버넌스 구현

2. 기업AI 시작, 모델옵스의 프로세스 및 주요 내용 설명

  가. 모델옵스 프로세스

- 모델링 : AI 모델을 프로덕션에 적용한 다음 기업에서 모든 모델의 수명주기 조율하고 AI의 롤아웃(신제품이나 정책 출시) 및 유지 관리를 효과적으로 자동화 하고 지속적으로 향상

- 운영 : 소프트웨어 엔지니어 또는 데이터 과학자와 IT간의 소통 통해 프로젝트를 보다 쉽게 실행하고 원활하게 작업

 

 나. 모델옵스의 주요 내용 설명 

구분 주요 내용 설명
주요
특징
- 병목현상 해소 - 다양한 모델 구축과 배포 관리 능력
- 블랙박스 모델 해소 - 배포에 대한 작동원리 등 이력 관리
- 빠듯한 일정 해소 - 모델의 분석 라이프사이클 일정 관리
- 버전관리 문제 해결 - 분석결과의 신뢰성 검증, 버전별 관리
도입
단계

① 현재 상황 파악 - 기존의 공식/비공식적 분석 프로세스를 명 문화하고 그 효용성을 평가
② 변화의 촉진 - 모델의 제작 및 배포 방식을 개선하는 데 필 요한 문화적 변화과 자동화 및 프로세스 표 준화를 촉진하는 데 주력
③ 문화적 공감대 - 원하는 수준의 비즈니스 가치를 제공하는 분석 모델을 개발하겠다는 공통된 목표 하 에 완전히 새로운 차원의 부서 간 협업
④ 표준화와 자동화 - 모델 저장, 성능 모니터링, 경보, 모델 배포 및 리트레이닝 프로세스를 중심으로 표준화, 그리고 궁극적으로 자동화에 투자
⑤ 효과적 모델 거버넌스 - 문화적 공감대, 자동화, 표준화라는Mo delOps의 세 가지 기본 요건이 충족되면 매우 효과적인 모델 거버넌스를 구현

 

[빅데이터/인공지능 목차]

 

 


기출 관리 126회 3교시
6. 디지털 뉴딜 ‘데이터 댐’의 핵심인 인공지능 학습용 빅데이터 구축 사업의 성공적 추진을 위한 정책과 데이터 품질에 대한 관심도가 높아지고 있다.다음의 내용을 설명하시오.
1) 인공지능 학습용 데이터의 특성
2) 데이터 획득ㆍ정제 방법과 기준
3) 데이터 라벨링(Data Labeling) 및 어노테이션(Annotation) 방식

 

 

 

I. 데이터 획득 / 정제 방법

가. 데이터 획득 방법

구분 획득방법 설명
정의 획득 데이터 정의 원시데이터 정의, 원시데이터 포맷을 보편적으로 통용되는 포맷을 활용, 원시데이터 획득 규모를 구축 목표치 이상의 데이터를 획득하도록 반영
분석 획득 데이터 특성 분석 원시데이터 획득 관련 이슈사항 도출, 원시데이터 적합성 검토, 원시데이터 선정
절차 획득 절차 수립 및 항목 정의 데이터 획득·정제 절차, 데이터 획득 항목, 획득 데이터 저장 및 관리에 대한 사항을 구체적으로 제시
- 데이터 획득 형태에는 원시 데이터 직접 제작, API, 크롤링 등이 있음

 

나. 데이터 정제 방법

구분 정제방법 설명
방식 원시 데이터 정제 방식 원시 데이터 정제 프로세스와 정제 기준에 대한 사항을 구체적으로 제시
도구 획득 도구 및 정제 도구 도구를 자체 개발 또는 시중의 제작 도구 또는 그와 유사한 역할을 할 수 있는 서비스·애플리케이션을 활용
고려사항 획득 / 정제 시 고려사항 개인정보보호 및 보안, 저작권, 초상권 등 관련 법·제도 에 대한 사항, 데이터 다양성 확보, 데이터 편향 방지 및 윤리 준수, 데이터 획득 시 품질 고려

- 데이터 구축 목적, 데이터 유형, 도메인 특성에 따른 데이터 정제 기준을 수립함

- 데이터 사용 형태 별로 사용 목적에 적합한 명확한 정제 기준 수립 필요

 

II. 데이터 정제 기준

구분 기준 설명
텍스트 데이터  문장 분리 • 문장분리 기술을 활용하여 3줄 요약으로 문장을 분리
• 분리된 문장은 한 줄씩 개행하여 라벨링 작업자의 작업 효율을 증대
문장구분 오류 • 오픈소스 문장 분리기 (Koala NLP)와 참여기관이 자체 보유한 한국어 어휘사전 기반 문장 분리기를 결합하여 99% 이상 정확 도를 갖는 문장 분리 수행
오탈자 수정 참여기관이 자체 보유한 한국어 어휘사전을 활용하여 초성-중성-종성 간의 관계를 고려하여 오탈자 판단 및 수정
수식어 하이라이트 • 기 보유하고 있는 통합사전과 추가로 보완할 도메인 사전을 바탕 으로 형태소 분석을 통해 품사를 구분함
• 하이라이팅된 수식어는 라벨링 작업자들이 요약 시 내용을 파악 하는데 방해되는 수식어를 쉽게 구분할 수 있도록 함
음성데이터 음량 음량이 너무 크거나 작을 때 허용 범위
발음 화자의 발음이 불분명할 때 허용 범위
소음 및 잡음 • 음성 이외에 소음, 잡음이 심할 때 허용 범위
잘림 발화된 문장이 완성되지 않고 끝났을 때 허용 범위
안들림 음성이 들리지 않을 때 허용 범위
개인정보처리 개인정보보호법 위배 여부
저작권 저작권 침해 가능성 여부
촬영 이미지 촬영수단 촬영 수단의 제한여부(스마트폰, 카메라, 캠코더, 그 밖의 특수장비 등)
객체의 크기 비율 촬영 대상이 이미지 내에서 차지하는 적정크기 또는 크기 제한
촬영대상 제한 이미지 내에서 촬영 대상 객체 외 다른 것들이 포함되어도 되는지 여부
• 한 이미지 내에 포함될 수 있는 객체의 개수 제한(최소, 최대 등)
이미지 비율 촬영 시 가로, 세로 방향
• 4:3, 16:9 등 가로세로 비율
화질 및 필터 해상도 제한 여부(최소 해상도, 최대 해상도 등)
• 필터가 적용된 이미지 가능 여부
잘못된 촬영 허용수준 촬영 대상의 초점 안맞음 허용 여부
• 아웃포커싱 사진 허용 여부
• 이미지 흔들림 허용 여부
• 촬영 대상의 잘림 또는 가려짐 허용 여부
• 그 밖의 사유로 촬영 대상이 잘 보이지 않거나 흐릿함 허용 여부
• 기울어진 사진 허용 여부
개인정보처리 개인정보보호법 위배 여부
저작권 저작권 침해 가능성 여부
스캔 이미지 오탈자 여부 스캔 이미지 내 오탈자 및 발견 시 허용 여부
화질 및 필터 해상도 제한 여부(최소 해상도, 최대 해상도 등
스캔 품질 이미지 흔들림 허용 기준
• 빛 노출 과다 허용 기준
• 스캔 대상의 잘림 또는 가려짐 허용 여부
• 기울어짐. 찌그러진 이미지 허용 여부
• 그 밖의 사유로 촬영 대상이 잘 보이지 않거나 흐릿함 허용 여부
개인정보 처리 개인정보보호법 위배 여부
저작권 저작권 침해 가능성 여부
영상데이터 획득 배경 데이터 획득 배경에 대한 설명
데이터 획득 목적에 따른 획득 방법 또는 제작 방법 수립, 촬영전략 및 계획 수립
데이터 정제 데이터 정제를 위한 작업 프로세스
데이터 활용 분야 연구 분야, 산업 분야
데이터 형태 동영상 비디오 클립 mp4 포맷 또는 이미지 파일(PNG, JPG), 목적에 맞는 획득 데이터 식별 기준에 따른 정보 포함

 

 

참고문서 : 인공지능 학습용 데이터셋 구축 안내서(https://www.aihub.or.kr/web-nas/aihub21/files/sample/intro/%EC%A0%9C2%EA%B6%8C._%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5_%ED%95%99%EC%8A%B5%EC%9A%A9_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B_%EA%B5%AC%EC%B6%95_%EC%95%88%EB%82%B4%EC%84%9C.pdf)

 

 

[빅데이터/인공지능 목차]

 

데이터 커머스(Data-C, Data Commerce)

 

1.소비자와 상품의 연결 통로, 데이터 커머스의 개념

  • 빅데이터 분석을 통해 상품특성 및 고객성향을 분석하여 맞춤형 정보를 소비자게에 제공하여 구매를 유도하는 마케팅 기술
  • (특징) 고객 맞춤형, 고객 경험 개선, 빅데이터 활용, 중계 플랫폼

2. 데이터 커머스 구성

1) 데이터 커머스 구성

  • 효과적인 데이터 커머스 활용을 위해서 빅데이터 고나리 및 분석, 데이터 마이닝 기술 필요

2) 데이터 커머스 구성요소

구분 구성요소 설명
데이터 수집 데이터 수집 - 외부 데이터, 내부 커머스 데이터(고객, 관심사, 구매이력), 사용자 행동 Data 의 수집 기술
- ETL, OpenAPI, Sqoop, Flume, Kafka, Apache Nifi 등
데이터 저장 - 수집된 정형, 비정형 데이터의 저장 및 공유 
- Data Lake, HDFS, NoSQL, RDBMS, Metadata 등
데이터 처리 - 저장된 데이터의 활용을 위한 데이터 처리 기술 
- HIVE, Pig, Spark, Storm 등
데이터 분석 연관 분석 - 고객 구매/행동이력과 상품의 연관관계 분석 
- Apriori, 지지도, 신뢰도, 향상도
상관 분석 - 고객과 상품 등 두 변수간의 선형적인 관계 분석 
- 피어슨, 스피어만, 켄달 상관계수
통계 분석 -  소비패턴, 구매이력 등 관측한 현상의 특징 등 분석 
- 선형회귀분석, 로지스틱회귀분석, 시계열분석
데이터 마이닝 텍스트 마이닝 - 대규모의 비정형 텍스트에서 의미있는 정보를 추출하여 고객서비스나 마케팅에 활용하는 기법
오피니언 마이닝 - 고객 Review 등을 통해 고객의 긍/부정 감성을 분석하여 마케팅 및 의사결정에 활용하는 기법
웹 마이닝 - 웹로그, 검색기록 등을 분석하여 추출한 행동특성 및 패턴을 마케팅에 활용하는 기법
  • 빅데이터 기반의 분석 및 데이터 마이닝 기술을 통해 소비자에게 커스터마이징 된 정보 제공이 가능함

 

 

 

[빅데이터/인공지능 목차]

 

시계열분석의 정의

- 시간의 흐름에 따른 데이터의 변화추이 또는 패턴을 찾아 미래를 예측하는 분석기법

 

시계열데이터의 4가지 요인

변동요인 설명
추세변동요인 인구변화, 기술변화, 생산성 증대 등 장기적인 변동으로 통상 10년 이상의 변동주기를 가지는 변동요인
순환변동요인 경기순환 등에 따라 반복되는 변동으로 2년~5년 주기로 변화하는 변동요인
계절변동요인 계절의 변화 및 각종 관습에 의해 생성되는 1년 주기로 반복되는 변동 요인
불규칙 변동요인 추세, 순환, 계절 변동요인이 아닌 돌발적이거나 원인불명의 요인에 의거하여 발생하는 변동요인

 

시계열데이터의 정상성(Stationary)

- 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 성질

  1. 평균이 일정
  2. 분산이 시점에 의존하지 않음
  3. 공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않음
    γk=Cov(Zt , Zt+k)

 

정상성 확보 기법

- 일반적으로 평균이 일정하지 않을 때(추세가 존재) 차분을 수행하고 , 분산이 일정하지 않을 때 변환을 수행하여 정상성을 갖추도록 함

 

시계열 분석 기법

  • 시계열 분석 기법으로는 자기회귀모형, 자기이동평균모형, 자기회귀이동평균모형, 자기회귀누적이동평균모형이 있음

모형 설명
AR
  • Auto Regression(자기회귀모형)
  • 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명되는 모형
MA
  • 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형
ARMA
  • Auto Regression Moving Average(자기회귀이동평균모형)
  • AR, MA 모형을 동시에 포함하여 시계열모형의 모수를 줄여서 보다 효율적인 시계열 분석을 수행하는 모델 기법
ARIMA
  • Auto Regressive Integrated Moving Average(자기회귀누적이동평균모형)
  • 시계열을 차분해서 ARMA 모형이 되는 모형

 

[Site Map]

 

* 토픽 각 단락 당 3줄 간격 유지
* 꼭 포함되어야 하는 중요 단어는 굵게 + 빨간게 표시
* 최대 44자 이상이 안되도록 주의

 

데이터베이스 스키마(Database Schema)

데이터베이스에서 자료의 구조 및 표현방법, 자료 간의 관계를 정의한 메타데이터의 집합

 

 

 

데이터 모델링(Data Modeling) :데이터베이스 핵심 설계

사용자 요구사항을 분석하고 필요한 데이터 요소를 도출하여 적절한 데이터 구조를 정의하는 방법

 

 

 

데이터베이스 파티셔닝(Partitioning) : 대용량 테이블 처리를 위한

대용량 데이터의 처리 및 검색 성능 향상을 위해 테이블을 분할하여 저장하는 파티셔닝 기법

 

 

 

데이터베이스 샤딩(Sharding)

물리적으로 다른 DB에 동일한 테이블 스키마의 테이블을 수평 분할하여 저장, 조회하는 기법

 

 

 

쿼리 오프로딩(Query-off Loading)

데이터 베이스 트랜잭션에서 Update/Read 트랜잭션을 분리하여 DB처리량을 증가시켜 성능과 가용성 향상 기법

 

 

 

트랜잭션 고립 수준(Transaction Isolation Level)

트랜잭션 격리성으로 인한 문제를 개선하고 트랜잭션 격리성과 동시처리 성능을 고려한 4단계 격리 수준

 

 

 

동시성 제어(Concurrency Control)

DB 성능 향상 및 무결성, 일관성 제공을 위해 동시 다수 트랜잭션 실행데이터 결함이 없도록 제어하는 기법

 

 

 

함수적 종속성(Functional Dependency)

어떤 릴레이션 R의 부분집합 X, Y에서 X의 값 각각에 대해 항상 Y값이 오직 하나만 연관되는 관계성(X→Y)

 

 

 

연결함정(Connection Trap)

정규화 과정에서 무손실 분해의 원칙이 지켜지지 않아 원래 있던 관계성이 소실되는 현상

 

 

 

데이터 무결성(Data Integrity)

데이터의 중복,누락 없는 정확성과 원인,결과 의미의 연속성이 보장되는 일관성이 확보된 상태

 

 

 

데이터 독립성(Data Independency)

상위 데이터 아키텍쳐 변경 시 하위 데이터 아키텍쳐의 논리적물리적 성질이 변하지 않는 특성

 

 

 

데이터 거버넌스(Data Governance)

데이터 정책, 지침, 표준, 전략, 방향을 수립하고 관리하는 조직 및 서비스를 구축하는 IT 관리체계

 

 

 

데이터 프로파일링(Data Profiling)

메타데이터(설계상)와 실제 데이터(DB)에 대하여 통계적 분석을 시행해 데이터 품질이슈를 관리하는기법

 

 

 

정규화(Normalization)

데이터 중복성을 최소화, 이상현상을 방지, 정보의 일관성을 위해  하나의 릴레이션에 하나의 종속성만 갖도록 하는 과정

 

 

이상현상(Anomaly)

실제 데이터의 값과 데이터베이스에 저장된 데이터 값이 불일치하거나 누락이 발생하는 현상

 

 

 

트랜잭션 직렬성(Transaction Serializability)

다수의 트랜잭션이 수행될때 각 트랜잭션이 순차적으로 수행되는 것과 같이 데이터의 일관성을 보장하는 트랜잭션 특성

 

 

 

동적쿼리(Dynamic Query)

Runtime시에 사용자 입력값에 따라 DB질의문에 동적으로 SQL을 생성하여 실행하는 방식의 SQL Binding 기법

 

 

 

데이터 표준화

각 시스템의 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 일관된 원칙을 수립하여 전체에 적용하는 활동

 

 

 

메타 데이터(Meta Data)-목적을 가지고 만들어진 데이터(Constructed data with a purpose)

대량의 데이터에서 정보를 효율적으로 검색하기 위해 원시데이터(Raw data)를 일정한 규칙에 따라 구조화 혹은 표준화한 정보

 

 

 

시스템 카탈로그(System Catalog)

시스템 전체에서 나타나는 데이터 항목들(릴레이션, 인덱스,뷰, 통계, 사용자 정보등) 에 대한 정보를 저장한 중앙 저장소

 

 

 

소프트웨어 공학

과학적, 수학적, 공학적 이론을 바탕으로 SW를 설계, 구현, 테스트, 배포하고 운영, 유지보수위한 문서화하는 기술

 

 

 

소프트웨어 기술성 평가

소프트웨어사업 계약을 위한 상용 소프트웨어 및 정보시스템의 기획·구축·운영 등의 기술성 평가를 진행하는 절차 및 활동

 

 

 

소프트웨어 품질성능 평가

동종의 경쟁 제품 간 비교시험을 통해 소프트웨어 구매자의 요구사항을 만족하고 품질 및 성능이 우수한 제품을 가려내는 행위(소프트웨어 품질성능 평가시험 운영에 관한 지침)

 

 

 

SRE(Site Reliability Engineering)

소프트웨어 엔지니어링 방식을 인프라 및 운영 문제 적용하여 초고도로 확장 가능 및 안정적 소프트웨어 시스템 개발 분야

 

 

 

ISO/IEC 25000

소프트웨어 공정 별 산출물에 대한 사용자 요구 충족여부를 검증하기 위한 S/W 품질평가 통합 모델

 

 

 

소프트웨어 비용산정

소프트웨어 개발에 필요한 기능과 규모를 기반으로 직접적으로 필요한 비용을 예측, 산정하는 활동

 

 

 

 

 

 

'메가노트 > 암기장' 카테고리의 다른 글

트렌드 토픽 정의(2022.11.12)  (0) 2022.11.12
빅데이터/알고리즘 토픽 정의  (0) 2022.10.29
소프트웨어공학 토픽 정의  (0) 2022.10.23

+ Recent posts