어제보다 더 나은 나

ODS, DW란 본문

데이터분석 공부/대용량데이터 처리

ODS, DW란

확인해볼까 2022. 8. 15. 14:48

* ODS 데이터

  • DW 구축에서 Source 데이터에 일정한 가공 과정을 거쳐 적재됨 (예전에는 Source 데이터가 바로 DW에 적재되었음)
  • 조직의 단기적 의사결정 지원 가능 (ODS에 있는 데이터들은 과거에서부터 쭉 데이터를 보관하는 것이 아니고 일정 시점에서부터 일정 시점까지의 최신 데이터만 보관하고 있는 시스템)
  • DW를 구축하기 위한 중간적 역할 담당

 

* ODS의 정의

  • 주제 중심적이고, 통합적이며, 최근의, 휘발성(ex. 3개월), 상세, 데이터의 집합 

 

* ODS의 정의

  • 일상적(day-to-day, up-to-the-second)인 의사결정을 지원
  • 데이터 웨어하우스로의 이동 통로(Migration Path) 제공

 


* DW ( Data Warehouse )

  • 기업의 대단위 데이터를 주제별로 통합 축적하여 별도의 장소에 저장해 놓은 것
  • 단순한 데이터의 저장고가 아니라, 관계형 DB(ex. 오라클)를 근간으로 많은 데이터를 다차원 분석하여 의사결정에 도움을 줌
  • 조직 내에 집적된 각종 데이터를 다차원적으로 분석함으로써 서로 다른 정보(생산,구매,주문,영업 등)들의 연관성을 신속하게 찾아내어 의사결정을 지원하는 도구

 

* DW의 유래

  • 기존의 OLTP(On-Line Transaction Processing) 시스템이 다년간 추세분석과 같은 방대한 과거 데이터 유지 및 비정형 질의에 대한 처리에 한계 봉착하면서 등장

 

* DW의 특징

  • 주제 지향성 (고객, 제품 등과 같이 주제 중심으로 구성)
  • 통합성 (일관성 있는 데이터의 정의, 레이아웃, 관계성, 키 구조 등)
  • 시계열성 (DW 내의 데이터는 스냅샷 형태의 데이터로 시간항목을 가지며 장기간에 걸쳐 존재)
  • 비휘발성 (일단 읽기전용(스냅샷 등)으로 만들어지면 갱신이 이뤄지지 않음)

 

* DW Flow

  • ETL, 실시간 추출 반영(CDC)과 같은 부분들이 DW 시스템 안에서 다 구축이 되는 부분

 

* 발전적 DW   ( 우리은행 : 미래지향적 빅데이터 시스템 구축 )

  • 국내은행 최초로 빅데이터 플랫폼과 EDW(Enterprise Data Warehouse)를 결합하고 하이브리드 DW(Data Warehouse) 아키텍처 구축 프로젝트를 성공적으로 완료
  • 하둡(Hadoop) 분산정보저장시스템과 기존 EDW를 통합해 다양하고 많은 정보를 저장할 수 있는 데이터레이크(Data Lake)를 새롭게 구축
  • 데이터 중복 적재에 따른 자원 낭비를 해소하고 데이터 분석, 설계, 서비스 구현 등에서 50% 이상 속도 향상

K-MOOC 2주차 3차시 대용량 고객 데이터 통합 방안,  강의 자료

* 과거 : 정보계 시스템에 있는 데이터들을 빅데이터 시스템으로 그대로 옮겼음.

( 데이터 중복 발생, 시간적인 면에서 단점, 데이터분석가들이 정보계와 빅데이터 모두에 접근해서 데이터를 가져와야 하는 불편 발생 )

 

* 현재 : 빅데이터 시스템에서 가공처리를 한 후, 정보계 시스템으로 옮김. 정보계 시스템에 접근해서 데이터를 분석

 

이러한 데이터들을 작업을 할 때, 고객 통합이 중요.

DW에 있는 고객과 하둡에 있는 고객이 통합되지 않으면 어떤 데이터를 가지고 작업을 해야할 지가 불분명

 

 

* 고객 데이터 통합 시 문제점

  1. 고객 정보 통합 성능에 대한 고려를 안 함.
  2. 각 시스템별 단계적으로 고객 통합 ( 고객이 어떤 걸 사용하게 될 지 모르기 때문에 향후 문제발생 가능성이 높아짐. )
  3. 테스트 시 성능 문제 발생
  4. SQL 튜닝 실시
  5. H/W 증설

=> 임시 테이블 생성을 통한 고객 데이터 통합이 효과적

 

 

Comments