홍카나의 공부방

데이터 웨어하우스 옵션들 본문

Data Engineering

데이터 웨어하우스 옵션들

홍문관카페나무 2023. 5. 22. 16:24

살펴볼 옵션들

  • AWS Redshift
  • Snowflake
  • BigQuery
  • Apache Hive, Presto
  • Apache Iceberg+Spark

Iceberg는 스토리지에 가깝긴 하다.

 

 

AWS Redshift

  • PB 스케일 데이터 분산 처리가 가능한 AWS 기반 데이터 웨어하우스다.
  • PostgreSQL과 호환된다.
  • CSV, JSON, Avro, Parquet 등 다양한 데이터 포맷을 지원한다.
  • S3, RDS, DynamoDB와 같은 AWS 서비스들과 연동이 쉽다.
  • 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.

 

Snowflake

  • 클라우드 기반 데이터 웨어하우스다.
  • ETL과 다양한 데이터 통합 기능을 제공한다.
  • SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해준다.
  • 비구조화된 데이터 처리와 머신러닝 기능을 제공한다.
  • CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
  • 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.

 

Google Cloud Bigquery

  • 구글 클라우드 기반 데이터 웨어하우스 서비스다.
  • BigQuery SQL이라는 SQL로 데이터를 처리할 수 있다.
  • CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
  • 구글 클라우드 내의 다른 서비스들과 연동이 쉽다.
  • 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.

 

Apache Hive

  • 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스 서비스다.
  • HiveQL이라 부르는 SQL을 지원한다.
  • MapReduce 위에서 동작하는 버전(1.0)과, Apache Tez를 실행 엔진으로 동작하는 버전(2.0)이 존재한다.
  • 다른 하둡 기반 오픈소스들과 연동이 쉽다. (Spark 등)
  • CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
  • 점점 Spark에 비해 밀린다고 한다.

 

Apache Presto

  • Hive보다는 처리 속도에 집중한 프로젝트다. ( 디스크 중심 vs 메모리 중심 )
  • 다양한 데이터 소스에 존재하는 데이터를 대상으로 SQL을 실행할 수 있다. ( HDFS, S3, Cassandra... )
  • PrestoSQL이라 부르는 SQL을 지원한다.
  • CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
  • AWS Athena가 바로 Presto를 기반으로 만들어진 서비스다.
  • Hive와 같이 하둡 위에서 돌아가는 SQL 엔진이다.

 

Apache Iceberg

  • 데이터 웨어하우스 기술은 아니다.
  • 대용량 SCD(slowly-changing Datasets) 데이터를 다룰 수 있는 테이블 포맷이다.
  • 스키마 진화 지원을 통해 컬럼 제거와 추가가 가능하다.
  • 자바와 파이썬 API를 지원하며, Spark, Hive 등의 다른 Apache 시스템과 연동이 가능하다.

 

Apache Spark

  • 빅데이터 처리 관련 오픈소스 프로젝트다.
  • 배치처리, 실시간처리, 그래프처리, 머신러닝 기능을 제공한다.
  • 하둡(YARN), AWS EMR, K8s 등의 다양한 분산처리 시스템을 지원한다.
  • HDFS, S3, Cassandra, HBase 등의 다양한 파일시스템과 연동이 가능하다.
  • CSV, JSON, Avro, ORC, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
  • Java, Scala, Python 등을 지원한다.
반응형