일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 구름Level
- K-MOOC 3주차
- 무결성제약조건
- 데이터 허브
- 구름코테
- 대용량 데이터 Batch
- 계층적질의문
- 대용량 데이터 이행
- 마이데이터 개념과 원칙
- dbms
- 엔저의 원인
- 데이터 이행
- 대용량데이터 처리방안
- 마이데이터 비즈니스 모델
- 2주차 : ETL/CDC
- 1주차:메타데이터와 데이터표준화
- sql
- ETCL
- K-MOOC 매치업 강좌
- 대용량 데이터 처리
- 오라클
- 코딩테스트
- 마이데이터 개념
- GROUP함수
- SQL-PLUS
- EBH
- 마이데이터 국민참여단
- 코테
- 백준
- 2022 마이데이터 국민참여단 후기
- Today
- Total
목록데이터분석 공부/대용량데이터 처리 (5)
어제보다 더 나은 나
* 데이터 허브 배포, 공유, 또 종종 서브네팅과 공유를 목적으로 정리된, 여러 출처로부터 비롯되는 데이터 모임 * 데이터 허브 VS 데이터 레이크 데이터 허브가 운영 데이터에만 국한될 필요는 없기 때문에 운영 데이터 저장소와 다름 데이터 허브는 데이터를 단일 위치에 단순히 저장하는 것이 아니라 원하는 여러 형식으로 데이터를 제공하고 중복 제거, 품질, 보안 및 표준화된 쿼리 서비스 집합과 같은 다른 가치를 추가함으로써 데이터 레이크와 다름 가공되지 않은 상태로 저장되어 접근이 가능한 엄청난 양의 데이터 * 대용량 데이터 처리 DBMS 튜닝을 통한 대용량 데이터 Batch 처리 방안 Batch Hub를 통한 대용량 데이터 Batch 처리 방안 SQL로 개발된 대용량 데이터 처리 프로그램의 튜닝을 통한 성..
* 대용량 데이터 처리 구분 ( 2가지 ) 대용량 데이터 이행 배치 처리 * 데이터 이행 한 개의 시스템(Source System)으로부터 다른 시스템(Target System)으로 데이터 또는 스키마를 옮기는 것 동일한 형태와 내용으로 옮겨질 수도 있지만 타깃 시스템이 새로 개발된 신규 시스템이라면 데이터만을 새로이 가공해서 옮길 수도 있음 이전 시스템에 있는 데이터를 새로운 시스템으로 옮기면서 정제/변환 가공 처리를 수행한다고 할 수 있음 1회성 작업 ( cf. DW와 ODS를 만들어주는 부분은 지속성 작업 ) 운영적인 목적이든, 분석적인 목적이든 지속적인 정보의 활용이 유지되는 동시에 일종의 구조를 포함하는 지속적인 데이터의 모든 이동 기존 레거시 시스템의 데이터를 재구성하여 새로운 시스템에 맞추어..
* ODS 데이터 DW 구축에서 Source 데이터에 일정한 가공 과정을 거쳐 적재됨 (예전에는 Source 데이터가 바로 DW에 적재되었음) 조직의 단기적 의사결정 지원 가능 (ODS에 있는 데이터들은 과거에서부터 쭉 데이터를 보관하는 것이 아니고 일정 시점에서부터 일정 시점까지의 최신 데이터만 보관하고 있는 시스템) DW를 구축하기 위한 중간적 역할 담당 * ODS의 정의 주제 중심적이고, 통합적이며, 최근의, 휘발성(ex. 3개월), 상세, 데이터의 집합 * ODS의 정의 일상적(day-to-day, up-to-the-second)인 의사결정을 지원 데이터 웨어하우스로의 이동 통로(Migration Path) 제공 * DW ( Data Warehouse ) 기업의 대단위 데이터를 주제별로 통합 축적..
* ETL (Extract : 추출, Transform : 변환, Load : 적재) 추출, 변환, 적재(extract, transform, load, ETL)는 컴퓨팅에서 데이터베이스 이용의 한 과정으로 특히 데이터 웨어하우스에 사용 동일 기종 또는 타 기종의 데이터 소스로부터 데이터를 추출함 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터를 변환함 • 최종 대상으로 변환 데이터를 최종 대상 적재함 (데이터베이스, 데이터 마트, 데이터 웨어하우스) * ETL의 장단점 자원(데이터 보관 인프라)의 효율적 사용 Compliance 이슈 해결 오랜기간 발전된 강력한 도구들 Disk 기반의 성능 문제 (속도 느림) 잦은 관리 필요 높은 수정 비용 * ETL Flow 소스시스템 ..
1. 데이터에 대한 데이터 실제로 존재하거나 사용할 수 있는 데이터 X 실제 데이터와 직접적 또는 간접적으로 연관된 정보를 제공해주는 데이터 2. 데이터에 대한 구조화된 데이터 '속성 정보' 라고 함 대량의 정보 가운데에서 찾고자 하는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터 데이터를 표현하기 위한 목적과 데이터를 빨리 찾기 위한 목적으로 사용 '어떤 목적을 가지고 만들어진 데이터' - Karen Coyle ex) 영화를 보려고 DVD 타이틀을 구매하였을 때, 포장에 붙어있는 제목, 상영시간, 등급, 제작사, 감독, 줄거리 등에 대한 정보 * 메타데이터 관리 시스템 구축 효과 정보시스템 개발 생산성 증대 비생산적인 작업 감소 데이터 중복 감소 중복 프로..