홍카나의 공부방

[DE 개념 정리] 데이터 웨어하우스, 데이터 마트, 데이터 레이크 용어 간단 정리 본문

Data Engineering

[DE 개념 정리] 데이터 웨어하우스, 데이터 마트, 데이터 레이크 용어 간단 정리

홍문관카페나무 2023. 4. 23. 21:53

데이터 웨어하우스, 데이터 마트, 데이터 레이크는 모두 데이터 관리 시스템이지만,

각각의 특징과 목적은 다르다.

 


 

데이터 웨어하우스

  • 데이터 웨어하우스는 조직 전체의 데이터를 통합하여 저장하는 데이터 관리 시스템이다.
  • 일반적인 RDB와는 달리 대량의 데이터를 길게 보존하는 것에 최적화 되어있다.
  • 데이터 웨어하우스는 중요한 데이터 처리에 사용되기 때문에 과부하를 적게 주는 것이 중요하다.
  • 데이터 웨어하우스에서 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축하기도 한다.
  • 데이터 웨어하우스의 데이터는 리포팅 및 분석 쿼리를 위해 정형화(구조화)되고, 최적화되어야 한다.

 

데이터 마트

  • 데이터 마트는 데이터 웨어하우스에서 ETL을 거쳐 업무에 필요한 데이터만을 추출하여 구성한 데이터 저장소다.
  • 데이터 마트에 저장된 데이터와 Tableau같은 BI 도구를 이용하여 데이터 시각화, 의사 결정 등을 진행할 수 있다.
  • 보통 SQL로 데이터를 집계한다.

 

데이터 레이크

  • 데이터 레이크는 비정형 데이터와 정형 데이터를 모두 저장하는 대규모 데이터 저장소다.
  • 여러 곳에서 흘러들어 오는 데이터를 축척하는 호수에 비유하여 데이터 레이크(data lake)라고 부른다.
  • 저장하는 데이터 형식은 자유지만, CSV나 JSON등의 범용적인 데이터 형식도 사용된다.
  • 데이터 레이크는 단순한 저장소라서 표준 데이터베이스처럼 정형화된 데이터를 쿼리하는 데 최적화되지는 않았다.
  • 보통은 스토리지에 가깝다. 데이터 웨어하우스보다 몇 배는 더 크고, 비용 효율적인 스토리지다.
  • AWS라면, S3가 대표적인 데이터 레이크라고 볼 수 있다.

 


 

정리에 도움받은 소스

 

<빅데이터를 지탱하는 기술> - 니시다 케이스케(西田圭介), 2018

반응형