Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- TCP
- 자료구조
- Django
- sql
- 컴퓨터 네트워크
- 데이터베이스
- AWS
- 가상환경
- Go
- redshift
- dockerfile
- airflow.cfg
- http
- 종류
- HADOOP
- airflow
- 데이터엔지니어링
- Docker
- 운영체제
- 데브코스
- 데이터 엔지니어링
- 데이터 파이프라인
- S3
- PYTHON
- linux
- 데이터 웨어하우스
- 정리
- 컴퓨터네트워크
- TIL
- 파이썬
Archives
- Today
- Total
홍카나의 공부방
데이터 웨어하우스 옵션들 본문
살펴볼 옵션들
- AWS Redshift
- Snowflake
- BigQuery
- Apache Hive, Presto
- Apache Iceberg+Spark
Iceberg는 스토리지에 가깝긴 하다.
AWS Redshift
- PB 스케일 데이터 분산 처리가 가능한 AWS 기반 데이터 웨어하우스다.
- PostgreSQL과 호환된다.
- CSV, JSON, Avro, Parquet 등 다양한 데이터 포맷을 지원한다.
- S3, RDS, DynamoDB와 같은 AWS 서비스들과 연동이 쉽다.
- 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.
Snowflake
- 클라우드 기반 데이터 웨어하우스다.
- ETL과 다양한 데이터 통합 기능을 제공한다.
- SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해준다.
- 비구조화된 데이터 처리와 머신러닝 기능을 제공한다.
- CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
- 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.
Google Cloud Bigquery
- 구글 클라우드 기반 데이터 웨어하우스 서비스다.
- BigQuery SQL이라는 SQL로 데이터를 처리할 수 있다.
- CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
- 구글 클라우드 내의 다른 서비스들과 연동이 쉽다.
- 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다.
Apache Hive
- 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스 서비스다.
- HiveQL이라 부르는 SQL을 지원한다.
- MapReduce 위에서 동작하는 버전(1.0)과, Apache Tez를 실행 엔진으로 동작하는 버전(2.0)이 존재한다.
- 다른 하둡 기반 오픈소스들과 연동이 쉽다. (Spark 등)
- CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
- 점점 Spark에 비해 밀린다고 한다.
Apache Presto
- Hive보다는 처리 속도에 집중한 프로젝트다. ( 디스크 중심 vs 메모리 중심 )
- 다양한 데이터 소스에 존재하는 데이터를 대상으로 SQL을 실행할 수 있다. ( HDFS, S3, Cassandra... )
- PrestoSQL이라 부르는 SQL을 지원한다.
- CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
- AWS Athena가 바로 Presto를 기반으로 만들어진 서비스다.
- Hive와 같이 하둡 위에서 돌아가는 SQL 엔진이다.
Apache Iceberg
- 데이터 웨어하우스 기술은 아니다.
- 대용량 SCD(slowly-changing Datasets) 데이터를 다룰 수 있는 테이블 포맷이다.
- 스키마 진화 지원을 통해 컬럼 제거와 추가가 가능하다.
- 자바와 파이썬 API를 지원하며, Spark, Hive 등의 다른 Apache 시스템과 연동이 가능하다.
Apache Spark
- 빅데이터 처리 관련 오픈소스 프로젝트다.
- 배치처리, 실시간처리, 그래프처리, 머신러닝 기능을 제공한다.
- 하둡(YARN), AWS EMR, K8s 등의 다양한 분산처리 시스템을 지원한다.
- HDFS, S3, Cassandra, HBase 등의 다양한 파일시스템과 연동이 가능하다.
- CSV, JSON, Avro, ORC, Parquet 등과 같은 다양한 데이터 포맷을 지원한다.
- Java, Scala, Python 등을 지원한다.
반응형
'Data Engineering' 카테고리의 다른 글
데이터 엔지니어링 트렌드와 변화 (0) | 2023.06.05 |
---|---|
[AWS] 다른 계정의 Redshift로 나의 S3 버킷 파일을 적재하고 싶을때 (0) | 2023.05.31 |
[DE 개념 정리] 데이터 파이프라인 개요, ETL과 ELT (0) | 2023.05.22 |
CSV 파일을 데이터 웨어하우스(redshift)에 로드할 때 주의사항 (0) | 2023.05.14 |
REST API에서 데이터 추출하기 파이썬 예제 (1) | 2023.05.13 |