일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- airflow
- TIL
- S3
- redshift
- 가상환경
- sql
- HADOOP
- Go
- TCP
- 컴퓨터 네트워크
- 데이터 엔지니어링
- 파이썬
- 데이터 파이프라인
- 컴퓨터네트워크
- 데브코스
- 데이터 웨어하우스
- dockerfile
- 데이터베이스
- http
- linux
- AWS
- 종류
- Django
- airflow.cfg
- PYTHON
- 데이터엔지니어링
- 정리
- Docker
- 자료구조
- 운영체제
- Today
- Total
목록hive (2)
홍카나의 공부방
Apache Hive Hive는 HDFS에 저장된 데이터에 대해 SQL 쿼리를 사용하여 데이터를 추출할 수 있게 만들어주는 프로그램이다. 사용자 입장에서는 DW를 사용하는 것처럼 SQL을 이용하면 된다. SQL에 친숙하다면 Hive는 강력한 도구가 될 수 있다. 특히 OLAP 쿼리를 주로 사용한다면 Java로 MapReduce를 작성해서 사용하는 것보다 훨씬 유리할 수 있다. 단, SQL 명령어를 MapReduce로 번역한다는 특징 때문에 처리 속도가 중요한 OLTP 처리성 쿼리는 적절한 선택이 되지 않을 가능성도 있다. 그리고 Hive는 실제 데이터베이스는 아니라는 점을 기억하고, 보다 세부적으로 알아보자. Hive의 작동 방식읽기 스키마(Schema on Read)Hive에서는 Schema ..
살펴볼 옵션들 AWS Redshift Snowflake BigQuery Apache Hive, Presto Apache Iceberg+Spark Iceberg는 스토리지에 가깝긴 하다. AWS Redshift PB 스케일 데이터 분산 처리가 가능한 AWS 기반 데이터 웨어하우스다. PostgreSQL과 호환된다. CSV, JSON, Avro, Parquet 등 다양한 데이터 포맷을 지원한다. S3, RDS, DynamoDB와 같은 AWS 서비스들과 연동이 쉽다. 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다. Snowflake 클라우드 기반 데이터 웨어하우스다. ETL과 다양한 데이터 통합 기능을 제공한다. SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해준다. 비구조화된 데이터..