어제보다 더 나은 나

대용량 데이터 처리 : 데이터 이행(마이그레이션) 본문

데이터분석 공부/대용량데이터 처리

대용량 데이터 처리 : 데이터 이행(마이그레이션)

확인해볼까 2022. 8. 16. 17:53

* 대용량 데이터 처리 구분 ( 2가지 )

  1. 대용량 데이터 이행
  2. 배치 처리

* 데이터 이행

  • 한 개의 시스템(Source System)으로부터 다른 시스템(Target System)으로 데이터 또는 스키마를 옮기는 것 
  • 동일한 형태와 내용으로 옮겨질 수도 있지만 타깃 시스템이 새로 개발된 신규 시스템이라면 데이터만을 새로이 가공해서 옮길 수도 있음
  • 이전 시스템에 있는 데이터를 새로운 시스템으로 옮기면서 정제/변환 가공 처리를 수행한다고 할 수 있음
  • 1회성 작업 ( cf. DW와 ODS를 만들어주는 부분은 지속성 작업 )
  • 운영적인 목적이든, 분석적인 목적이든 지속적인 정보의 활용이 유지되는 동시에 일종의 구조를 포함하는 지속적인 데이터의 모든 이동
  • 기존 레거시 시스템의 데이터를 재구성하여 새로운 시스템에 맞추어 신시스템으로 추출, 변환, 적재 작업 (ETL) 하는 전 과정
  • 데이터 정제(Data Cleansing) 과정도 포함

 

 

* 데이터 이동과 데이터 이행의 차이

데이터 이동 데이터 이행
다른 모든 조건을 그대로 유지한 채 한 개 또는 그 이상의 데이터베이스나 저장소로부터 다른 곳으로 물리적인 위치를 변경하는 것 ORACLE에서 SAP으로 이전하는 것과 같이 하나의 DBMS(애플리케이션)에서 다른 DBMS(애플리케이션)로 이전하는 경우
보다 오래되고 사용빈도가 적은 정보가 있는 저장소가 다른 저장소로 이동되는 경우 기존 DBMS(애플리케이션)에 존재하는 데이터 전체 또는 일부가 새로운 DBMS(애플리케이션)의 실행을 위해 필요한 경우 추출, 변환, 적재, 정제하는 과정
이력 데이터를 캡처하여 다른 저장소에 저장하는 경우  

[출처 : K-MOOC : 대용량 데이터 처리 과정 ]

 

* 데이터 이행의 성격

  • 차세대, 다운사이징, DW 구축, DM 구축 등과 같이 AS-IS VS TO-BE 혹은 Source VS Target 데이터의 이동과 관련된 일련의 작업
  • 데이터 이행 프로젝트도 다른 프로젝트와 마찬가지로 철저한 사전 조사와 분석을 통하여 최대한 시행착오를 줄여야 함
  • 전 세계적으로 데이터 이행 프로젝트의 60% 이상이 사업 기간과 예산을 초과한다고 보고되고 있음

 

* 데이터 이행의 실패원인

  • 데이터 이행 프로젝트는 항상 애플리케이션 프로젝트의 부분집합이라는 인식
  • 데이터 이행에 대한 지배적인 관점 ( 애플리케이션에 비해 낮은 업무 매력도로 인해 낮은 숙련도의 인력이 데이터 이행을 담당하는 경우가 다반사, 프로젝트 기간 여장이나 예산 초과와 같은 결과를 초래 )

 

* 데이터 이행의 성공 요소

  • 성공적인 프로젝트를 위해 가장 중요한 것은 무엇보다도 비즈니스와의 의사소통 ( 설계자, 업무 담당자, 애플리케이션 담당자, 시스템 엔지니어, DBA, 매핑 프로그램 담당자는 많은 대화와 커뮤니케이션 )
  • 데이터 이행의 설계도가 되는 갭 분석표 내지는 매핑정의서는 최대한 쉽고, 이론이 없도록 간단 명료하게 작성

 

* 데이터 이행의 유형별 구분

  1. 이행 대상별 (Object) : DBMS 이행, System 이행, Data Architecture 이행 (cf. 데이터 이행 차세대 = DBMS 이행 + System 이행 + Data Archtecture 이행)
  2. 이행 기간별 (Duration) : 빅뱅 (일괄 이행) 방식, 단계적 전환방식, 하이브리드 이행
  3. 이행 시점별 : 사전 이행, 본 이행, 사후 이행

 

 

'데이터분석 공부 > 대용량데이터 처리' 카테고리의 다른 글

데이터 허브  (0) 2022.08.17
ODS, DW란  (0) 2022.08.15
ETL / ETCL / ELT / CDC  (0) 2022.08.09
메타데이터, 데이터 표준화  (0) 2022.08.08
Comments