Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- PYTHON
- HADOOP
- 데이터 파이프라인
- 데이터엔지니어링
- 데이터베이스
- Django
- Go
- Docker
- linux
- sql
- 컴퓨터 네트워크
- 데이터 엔지니어링
- redshift
- TIL
- dockerfile
- 가상환경
- 데이터 웨어하우스
- 데브코스
- S3
- http
- 파이썬
- 운영체제
- AWS
- TCP
- 자료구조
- 정리
- 종류
- 컴퓨터네트워크
- airflow
- airflow.cfg
Archives
- Today
- Total
홍카나의 공부방
[DE 개념 정리] 데이터 웨어하우스, 데이터 마트, 데이터 레이크 용어 간단 정리 본문
데이터 웨어하우스, 데이터 마트, 데이터 레이크는 모두 데이터 관리 시스템이지만,
각각의 특징과 목적은 다르다.
데이터 웨어하우스
- 데이터 웨어하우스는 조직 전체의 데이터를 통합하여 저장하는 데이터 관리 시스템이다.
- 일반적인 RDB와는 달리 대량의 데이터를 길게 보존하는 것에 최적화 되어있다.
- 데이터 웨어하우스는 중요한 데이터 처리에 사용되기 때문에 과부하를 적게 주는 것이 중요하다.
- 데이터 웨어하우스에서 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축하기도 한다.
- 데이터 웨어하우스의 데이터는 리포팅 및 분석 쿼리를 위해 정형화(구조화)되고, 최적화되어야 한다.
데이터 마트
- 데이터 마트는 데이터 웨어하우스에서 ETL을 거쳐 업무에 필요한 데이터만을 추출하여 구성한 데이터 저장소다.
- 데이터 마트에 저장된 데이터와 Tableau같은 BI 도구를 이용하여 데이터 시각화, 의사 결정 등을 진행할 수 있다.
- 보통 SQL로 데이터를 집계한다.
데이터 레이크
- 데이터 레이크는 비정형 데이터와 정형 데이터를 모두 저장하는 대규모 데이터 저장소다.
- 여러 곳에서 흘러들어 오는 데이터를 축척하는 호수에 비유하여 데이터 레이크(data lake)라고 부른다.
- 저장하는 데이터 형식은 자유지만, CSV나 JSON등의 범용적인 데이터 형식도 사용된다.
- 데이터 레이크는 단순한 저장소라서 표준 데이터베이스처럼 정형화된 데이터를 쿼리하는 데 최적화되지는 않았다.
- 보통은 스토리지에 가깝다. 데이터 웨어하우스보다 몇 배는 더 크고, 비용 효율적인 스토리지다.
- AWS라면, S3가 대표적인 데이터 레이크라고 볼 수 있다.
정리에 도움받은 소스
<빅데이터를 지탱하는 기술> - 니시다 케이스케(西田圭介), 2018
반응형
'Data Engineering' 카테고리의 다른 글
[DE 개념 정리] 데이터 파이프라인 개요, ETL과 ELT (0) | 2023.05.22 |
---|---|
CSV 파일을 데이터 웨어하우스(redshift)에 로드할 때 주의사항 (0) | 2023.05.14 |
REST API에서 데이터 추출하기 파이썬 예제 (1) | 2023.05.13 |
[DE 개념 정리] 데이터 웨어하우스와 클라우드, AWS Redshift (1) | 2023.05.08 |
AWS RDS 설정 방법 + Troubleshooting (0) | 2023.05.02 |