Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 무결성제약조건
- 오라클
- K-MOOC 3주차
- sql
- K-MOOC 매치업 강좌
- 대용량 데이터 처리
- 2주차 : ETL/CDC
- 계층적질의문
- 대용량 데이터 이행
- 마이데이터 국민참여단
- 마이데이터 개념
- GROUP함수
- ETCL
- 마이데이터 비즈니스 모델
- 코딩테스트
- 백준
- 1주차:메타데이터와 데이터표준화
- K-MOOC
- 고전압안전
- 코테
- 데이터 허브
- 2022 마이데이터 국민참여단 후기
- EBH
- 마이데이터 개념과 원칙
- dbms
- 대용량데이터 처리방안
- 구름Level
- 대용량 데이터 Batch
- 측정계
- 데이터 이행
Archives
- Today
- Total
어제보다 더 나은 나
ODS, DW란 본문
* ODS 데이터
- DW 구축에서 Source 데이터에 일정한 가공 과정을 거쳐 적재됨 (예전에는 Source 데이터가 바로 DW에 적재되었음)
- 조직의 단기적 의사결정 지원 가능 (ODS에 있는 데이터들은 과거에서부터 쭉 데이터를 보관하는 것이 아니고 일정 시점에서부터 일정 시점까지의 최신 데이터만 보관하고 있는 시스템)
- DW를 구축하기 위한 중간적 역할 담당
* ODS의 정의
- 주제 중심적이고, 통합적이며, 최근의, 휘발성(ex. 3개월), 상세, 데이터의 집합
* ODS의 정의
- 일상적(day-to-day, up-to-the-second)인 의사결정을 지원
- 데이터 웨어하우스로의 이동 통로(Migration Path) 제공
* DW ( Data Warehouse )
- 기업의 대단위 데이터를 주제별로 통합 축적하여 별도의 장소에 저장해 놓은 것
- 단순한 데이터의 저장고가 아니라, 관계형 DB(ex. 오라클)를 근간으로 많은 데이터를 다차원 분석하여 의사결정에 도움을 줌
- 조직 내에 집적된 각종 데이터를 다차원적으로 분석함으로써 서로 다른 정보(생산,구매,주문,영업 등)들의 연관성을 신속하게 찾아내어 의사결정을 지원하는 도구
* DW의 유래
- 기존의 OLTP(On-Line Transaction Processing) 시스템이 다년간 추세분석과 같은 방대한 과거 데이터 유지 및 비정형 질의에 대한 처리에 한계 봉착하면서 등장
* DW의 특징
- 주제 지향성 (고객, 제품 등과 같이 주제 중심으로 구성)
- 통합성 (일관성 있는 데이터의 정의, 레이아웃, 관계성, 키 구조 등)
- 시계열성 (DW 내의 데이터는 스냅샷 형태의 데이터로 시간항목을 가지며 장기간에 걸쳐 존재)
- 비휘발성 (일단 읽기전용(스냅샷 등)으로 만들어지면 갱신이 이뤄지지 않음)
* DW Flow
- ETL, 실시간 추출 반영(CDC)과 같은 부분들이 DW 시스템 안에서 다 구축이 되는 부분
* 발전적 DW ( 우리은행 : 미래지향적 빅데이터 시스템 구축 )
- 국내은행 최초로 빅데이터 플랫폼과 EDW(Enterprise Data Warehouse)를 결합하고 하이브리드 DW(Data Warehouse) 아키텍처 구축 프로젝트를 성공적으로 완료
- 하둡(Hadoop) 분산정보저장시스템과 기존 EDW를 통합해 다양하고 많은 정보를 저장할 수 있는 데이터레이크(Data Lake)를 새롭게 구축
- 데이터 중복 적재에 따른 자원 낭비를 해소하고 데이터 분석, 설계, 서비스 구현 등에서 50% 이상 속도 향상

* 과거 : 정보계 시스템에 있는 데이터들을 빅데이터 시스템으로 그대로 옮겼음.
( 데이터 중복 발생, 시간적인 면에서 단점, 데이터분석가들이 정보계와 빅데이터 모두에 접근해서 데이터를 가져와야 하는 불편 발생 )
* 현재 : 빅데이터 시스템에서 가공처리를 한 후, 정보계 시스템으로 옮김. 정보계 시스템에 접근해서 데이터를 분석
이러한 데이터들을 작업을 할 때, 고객 통합이 중요.
DW에 있는 고객과 하둡에 있는 고객이 통합되지 않으면 어떤 데이터를 가지고 작업을 해야할 지가 불분명
* 고객 데이터 통합 시 문제점
- 고객 정보 통합 성능에 대한 고려를 안 함.
- 각 시스템별 단계적으로 고객 통합 ( 고객이 어떤 걸 사용하게 될 지 모르기 때문에 향후 문제발생 가능성이 높아짐. )
- 테스트 시 성능 문제 발생
- SQL 튜닝 실시
- H/W 증설
=> 임시 테이블 생성을 통한 고객 데이터 통합이 효과적
'데이터분석 공부 > 대용량데이터 처리' 카테고리의 다른 글
데이터 허브 (0) | 2022.08.17 |
---|---|
대용량 데이터 처리 : 데이터 이행(마이그레이션) (0) | 2022.08.16 |
ETL / ETCL / ELT / CDC (0) | 2022.08.09 |
메타데이터, 데이터 표준화 (0) | 2022.08.08 |
Comments