데이터 웨어하우스 옵션들

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

홍카나의 공부방

데이터 웨어하우스 옵션들 본문

Data Engineering

데이터 웨어하우스 옵션들

홍문관카페나무 2023. 5. 22. 16:24

살펴볼 옵션들

AWS Redshift
Snowflake
BigQuery
Apache Hive, Presto
Apache Iceberg+Spark

Iceberg는 스토리지에 가깝긴 하다.

AWS Redshift

PB 스케일 데이터 분산 처리가 가능한 AWS 기반 데이터 웨어하우스다.
PostgreSQL과 호환된다.
CSV, JSON, Avro, Parquet 등 다양한 데이터 포맷을 지원한다.
S3, RDS, DynamoDB와 같은 AWS 서비스들과 연동이 쉽다.
배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.

Snowflake

클라우드 기반 데이터 웨어하우스다.
ETL과 다양한 데이터 통합 기능을 제공한다.
SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해준다.
비구조화된 데이터 처리와 머신러닝 기능을 제공한다.
CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.

Google Cloud Bigquery

구글 클라우드 기반 데이터 웨어하우스 서비스다.
BigQuery SQL이라는 SQL로 데이터를 처리할 수 있다.
CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
구글 클라우드 내의 다른 서비스들과 연동이 쉽다.
배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.

Apache Hive

하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스 서비스다.
HiveQL이라 부르는 SQL을 지원한다.
MapReduce 위에서 동작하는 버전(1.0)과, Apache Tez를 실행 엔진으로 동작하는 버전(2.0)이 존재한다.
다른 하둡 기반 오픈소스들과 연동이 쉽다. (Spark 등)
CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
점점 Spark에 비해 밀린다고 한다.

Apache Presto

Hive보다는 처리 속도에 집중한 프로젝트다. ( 디스크 중심 vs 메모리 중심 )
다양한 데이터 소스에 존재하는 데이터를 대상으로 SQL을 실행할 수 있다. ( HDFS, S3, Cassandra... )
PrestoSQL이라 부르는 SQL을 지원한다.
CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
AWS Athena가 바로 Presto를 기반으로 만들어진 서비스다.
Hive와 같이 하둡 위에서 돌아가는 SQL 엔진이다.

Apache Iceberg

데이터 웨어하우스 기술은 아니다.
대용량 SCD(slowly-changing Datasets) 데이터를 다룰 수 있는 테이블 포맷이다.
스키마 진화 지원을 통해 컬럼 제거와 추가가 가능하다.
자바와 파이썬 API를 지원하며, Spark, Hive 등의 다른 Apache 시스템과 연동이 가능하다.

Apache Spark

빅데이터 처리 관련 오픈소스 프로젝트다.
배치처리, 실시간처리, 그래프처리, 머신러닝 기능을 제공한다.
하둡(YARN), AWS EMR, K8s 등의 다양한 분산처리 시스템을 지원한다.
HDFS, S3, Cassandra, HBase 등의 다양한 파일시스템과 연동이 가능하다.
CSV, JSON, Avro, ORC, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
Java, Scala, Python 등을 지원한다.

저작자표시 비영리 변경금지

'Data Engineering' 카테고리의 다른 글

데이터 엔지니어링 트렌드와 변화 (0)	2023.06.05
[AWS] 다른 계정의 Redshift로 나의 S3 버킷 파일을 적재하고 싶을때 (0)	2023.05.31
[DE 개념 정리] 데이터 파이프라인 개요, ETL과 ELT (0)	2023.05.22
CSV 파일을 데이터 웨어하우스(redshift)에 로드할 때 주의사항 (0)	2023.05.14
REST API에서 데이터 추출하기 파이썬 예제 (1)	2023.05.13

'Data Engineering' Related Articles

more

티스토리툴바