일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 데이터 허브
- sql
- GROUP함수
- SQL-PLUS
- 구름Level
- 대용량 데이터 Batch
- 계층적질의문
- 2주차 : ETL/CDC
- 2022 마이데이터 국민참여단 후기
- 오라클
- 데이터 이행
- 대용량 데이터 처리
- K-MOOC 매치업 강좌
- 무결성제약조건
- 마이데이터 비즈니스 모델
- K-MOOC 3주차
- 코테
- 백준
- 대용량데이터 처리방안
- EBH
- 마이데이터 국민참여단
- 엔저의 원인
- 마이데이터 개념과 원칙
- 1주차:메타데이터와 데이터표준화
- 마이데이터 개념
- 대용량 데이터 이행
- dbms
- 구름코테
- 코딩테스트
- ETCL
- Today
- Total
목록전체 글 (42)
어제보다 더 나은 나
* 데이터 허브 배포, 공유, 또 종종 서브네팅과 공유를 목적으로 정리된, 여러 출처로부터 비롯되는 데이터 모임 * 데이터 허브 VS 데이터 레이크 데이터 허브가 운영 데이터에만 국한될 필요는 없기 때문에 운영 데이터 저장소와 다름 데이터 허브는 데이터를 단일 위치에 단순히 저장하는 것이 아니라 원하는 여러 형식으로 데이터를 제공하고 중복 제거, 품질, 보안 및 표준화된 쿼리 서비스 집합과 같은 다른 가치를 추가함으로써 데이터 레이크와 다름 가공되지 않은 상태로 저장되어 접근이 가능한 엄청난 양의 데이터 * 대용량 데이터 처리 DBMS 튜닝을 통한 대용량 데이터 Batch 처리 방안 Batch Hub를 통한 대용량 데이터 Batch 처리 방안 SQL로 개발된 대용량 데이터 처리 프로그램의 튜닝을 통한 성..
* 대용량 데이터 처리 구분 ( 2가지 ) 대용량 데이터 이행 배치 처리 * 데이터 이행 한 개의 시스템(Source System)으로부터 다른 시스템(Target System)으로 데이터 또는 스키마를 옮기는 것 동일한 형태와 내용으로 옮겨질 수도 있지만 타깃 시스템이 새로 개발된 신규 시스템이라면 데이터만을 새로이 가공해서 옮길 수도 있음 이전 시스템에 있는 데이터를 새로운 시스템으로 옮기면서 정제/변환 가공 처리를 수행한다고 할 수 있음 1회성 작업 ( cf. DW와 ODS를 만들어주는 부분은 지속성 작업 ) 운영적인 목적이든, 분석적인 목적이든 지속적인 정보의 활용이 유지되는 동시에 일종의 구조를 포함하는 지속적인 데이터의 모든 이동 기존 레거시 시스템의 데이터를 재구성하여 새로운 시스템에 맞추어..
* ODS 데이터 DW 구축에서 Source 데이터에 일정한 가공 과정을 거쳐 적재됨 (예전에는 Source 데이터가 바로 DW에 적재되었음) 조직의 단기적 의사결정 지원 가능 (ODS에 있는 데이터들은 과거에서부터 쭉 데이터를 보관하는 것이 아니고 일정 시점에서부터 일정 시점까지의 최신 데이터만 보관하고 있는 시스템) DW를 구축하기 위한 중간적 역할 담당 * ODS의 정의 주제 중심적이고, 통합적이며, 최근의, 휘발성(ex. 3개월), 상세, 데이터의 집합 * ODS의 정의 일상적(day-to-day, up-to-the-second)인 의사결정을 지원 데이터 웨어하우스로의 이동 통로(Migration Path) 제공 * DW ( Data Warehouse ) 기업의 대단위 데이터를 주제별로 통합 축적..
* 배열 Array 삽입 / 삭제 : O(N) ( 삭제, 삽입하려는 위치 이외의 원소들을 한 칸씩 다 이동시켜야 하기 때문) 탐색 : O(1) ( 임의접근 Random access, 이유 : 인덱스를 사용했다고 해서 해당 인덱스에 이르기까지의 요소들을 모두 거치는 것이 아니라 배열의 주소 + 인덱스*type의 크기 = 메모리 주소값이라는 것을 이용해서 바로 해당 인덱스의 원소에 접근하기 때문) Python은 리스트를 사용 C++에서는 size 변경불가 (생성 시, size와 type 고정) * 벡터 Vector ( 2개 이상의 값 저장 ) 삽입 / 삭제 : O(N) 탐색 : O(1) 동적 배열 (size 변경 가능) * 연결리스트 Linked List (배열과 반대의 특성) 삽입 / 삭제 : O(1) 탐..
* 시간 복잡도 알고리즘의 최악의 경우 실행시간 입력량 N에 비례해서 얼마나 연산을 많이 하는지를 나타냄 빅오 표기법 (Big-O notation)으로 나타냄 알고리즘의 효율성 척도 C++ 기준 1초에 연산 1억 번이 넘어가면 위험 (1초 = 1억) * 공간 복잡도 N에 비례해서 메모리를 얼마나 사용하는지를 나타냄 메모리(공간)과 시간은 Trade Off 관계 Ex) 시간제한 2초, 메모리 제한 64MB, 입력 N의 범위는 0
* ETL (Extract : 추출, Transform : 변환, Load : 적재) 추출, 변환, 적재(extract, transform, load, ETL)는 컴퓨팅에서 데이터베이스 이용의 한 과정으로 특히 데이터 웨어하우스에 사용 동일 기종 또는 타 기종의 데이터 소스로부터 데이터를 추출함 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터를 변환함 • 최종 대상으로 변환 데이터를 최종 대상 적재함 (데이터베이스, 데이터 마트, 데이터 웨어하우스) * ETL의 장단점 자원(데이터 보관 인프라)의 효율적 사용 Compliance 이슈 해결 오랜기간 발전된 강력한 도구들 Disk 기반의 성능 문제 (속도 느림) 잦은 관리 필요 높은 수정 비용 * ETL Flow 소스시스템 ..