일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Docker
- 가상환경
- 데이터 엔지니어링
- Go
- HADOOP
- redshift
- airflow.cfg
- AWS
- 데브코스
- TIL
- TCP
- linux
- 데이터엔지니어링
- airflow
- 자료구조
- 데이터베이스
- 종류
- 파이썬
- 컴퓨터네트워크
- dockerfile
- 컴퓨터 네트워크
- S3
- PYTHON
- Django
- 데이터 파이프라인
- 데이터 웨어하우스
- http
- 운영체제
- 정리
- sql
- Today
- Total
목록Data Engineering (95)
홍카나의 공부방
https://repost.aws/ko/knowledge-center/redshift-s3-cross-account Amazon Redshift의 다른 계정에서 데이터를 복사하거나 언로드합니다. Amazon Redshift와 다른 계정에 있는 Amazon Simple Storage Service(S3) 버킷 간에 데이터를 COPY 또는 UNLOAD하려고 합니다. 하지만 다른 계정에서 AWS Identity and Access Management(IAM) 역할을 수임할 수 없습니다. 교 repost.aws 이 글을 따라하면 된다. 1. Amazon S3 계정에서 IAM 역할인 RoleA를 생성합니다. 2. RoleA를 수임할 권한이 있는 Amazon Redshift 계정에서 IAM 역할 RoleB를 생성합..
Airflow 소개 파이썬으로 만들어진 데이터 파이프라인 (ETL) 프레임워크다. 데이터 파이프라인 스케줄링을 지원하여, 정해진 시간에 ETL을 실행하거나 그 다음 ETL을 실행한다. Airflow에서는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부른다. DAG는 Task로 구성된다. ( 예를 들어 3개의 태스크로 구성된다면 Extract, Transform, Load로 구성 ) 하나의 DAG는 하나 이상의 태스크로 구성된다. 태스크는 Airflow의 Operator로 만들어진다. Airflow에서 이미 다양한 종류의 오퍼레이터를 제공한다. 경우에 오퍼레이터를 결정해서 사용할 수 있다. Airflow 구성 Airflow는 웹 서버, 스케줄러, 워커, 메타 데이터 데이터베이스..
Raw Data ETL jobs 내부 혹은 외부 데이터 소스에서 데이터를 읽어서, 적당한 포맷 변환을 거친 뒤 데이터 웨어하우스에 로드하는 것 외부 데이터 소스는 많은 경우 API를 통하게 된다. 내부 데이터 소스는 내부 ProductionDB(MySQL 등)이 원천지가 된다. Transform 단계에서 데이터의 크기가 커지면 Spark 등의 빅데이터 처리 프레임워크가 필요해진다. Summary/Report Jobs DW(혹은 DL)로부터 데이터를 읽어 다시 DW에 쓰는 ETL 과정이다. Raw Data를 읽어서 일종의 리포트 형태나 요약 형태의 테이블을 다시 만드는 용도로 수행한다. 요약 테이블의 경우 SQL의 CTAS를 통해 만들 수 있다. 데이터 엔지니어 관점에서는 어떻게 데이터 분석가들이 편하게 ..
CREATE TABLE IF NOT EXISTS order_summary_daily ( order_date date, order_country varchar(16), total_revenue numeric, order_count int ); 위와 같은 쿼리로 테이블을 하나 만들었다고 가정하자. 그리고 특정 월에 특정 국가에서 발생한 주문으로 발생한 수익을 확인하고 싶다고 할 때, -- 특정 월에 특정 국가에서 발생한 주문으로 발생한 수익은 얼마인가? SELECT date_format(order_date, '%m') as order_month, -- MID(order_date, 6, 2) as order_month, order_country, SUM(total_revenue) as order_revenue..