일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- http
- 컴퓨터 네트워크
- 자료구조
- 데브코스
- TCP
- 데이터 파이프라인
- 데이터엔지니어링
- PYTHON
- 데이터 웨어하우스
- Django
- 종류
- 데이터 엔지니어링
- airflow.cfg
- dockerfile
- linux
- 데이터베이스
- S3
- airflow
- TIL
- sql
- Go
- 정리
- 컴퓨터네트워크
- Docker
- 가상환경
- AWS
- HADOOP
- redshift
- 운영체제
- 파이썬
- Today
- Total
목록데이터 엔지니어링 (24)
홍카나의 공부방
airflow를 DE가 왜 사용하는가? backfill을 관리하기 쉬운 tool이라서 그렇다. backfill이란 실패한 데이터 파이프라인을 재실행하거나, 읽어온 데이터들의 문제로 다시 읽어옴을 의미한다. full refresh의 경우 backfill은 그냥 다시 실행하면 끝이나, incremetal update의 경우, backfill의 난이도가 올라간다. start_date와 execution_date airflow의 start_date는 DAG의 시작 날짜라기 보다는 DAG가 처음 읽어와야 하는 데이터의 날짜다. DAG의 실제 첫 실행날짜는 start_date + DAG의 실행주기다. execution_date는 읽어와야 하는 데이터의 날짜와 시간이다. airflow가 자동으로 정한다. 즉, 위 ..
Hello World DAG 만들어보기 Python Operator를 이용하여 Airflow dag를 만들어본다. from airflow.operators.python import PythonOperator from datetime import datetime from airflow import DAG dag = DAG( dag_id ="helloWorld", start_date = datetime(2021,8,26), catchup=False, tags = ['example'], schedule = '0 2 * * *' ) def print_hello(): print("hello!") return "hello!" def print_world(): print("world!") return "world!"..
2017년 2023년 비고 Hive(Hadoop) Spark 여전히 SQL을 사용한다는건 동일 Data Warehouse Data Lake Data Mesh On-premise Cloud, Container Snowflake, BigQuery, Databricks를 주로 사용 Batch Processing Streaming Processing Spark 스트리밍, Kafka 사용 ETL 자체개발 및 운영 ETL SaaS (FiveTran) ETL SasS가 완전 대체한다기 보다는, 보완하는 형태로 Central Data Org Decentralized Data Org Citizen Data 인력의 등장 의사결정 관련한 데이터 활용 ML/AI를 이용한 제품 개선 SageMaker 등을 사용하여 여러 과정을..
https://repost.aws/ko/knowledge-center/redshift-s3-cross-account Amazon Redshift의 다른 계정에서 데이터를 복사하거나 언로드합니다. Amazon Redshift와 다른 계정에 있는 Amazon Simple Storage Service(S3) 버킷 간에 데이터를 COPY 또는 UNLOAD하려고 합니다. 하지만 다른 계정에서 AWS Identity and Access Management(IAM) 역할을 수임할 수 없습니다. 교 repost.aws 이 글을 따라하면 된다. 1. Amazon S3 계정에서 IAM 역할인 RoleA를 생성합니다. 2. RoleA를 수임할 권한이 있는 Amazon Redshift 계정에서 IAM 역할 RoleB를 생성합..