Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 자료구조
- TIL
- dockerfile
- 정리
- 파이썬
- linux
- 데이터 엔지니어링
- 데브코스
- 데이터 웨어하우스
- redshift
- 컴퓨터 네트워크
- 종류
- http
- 가상환경
- sql
- 데이터 파이프라인
- 데이터베이스
- 운영체제
- HADOOP
- 데이터엔지니어링
- PYTHON
- TCP
- airflow.cfg
- 컴퓨터네트워크
- S3
- Django
- AWS
- airflow
- Go
- Docker
Archives
- Today
- Total
목록best practices (1)
홍카나의 공부방

Raw Data ETL jobs 내부 혹은 외부 데이터 소스에서 데이터를 읽어서, 적당한 포맷 변환을 거친 뒤 데이터 웨어하우스에 로드하는 것 외부 데이터 소스는 많은 경우 API를 통하게 된다. 내부 데이터 소스는 내부 ProductionDB(MySQL 등)이 원천지가 된다. Transform 단계에서 데이터의 크기가 커지면 Spark 등의 빅데이터 처리 프레임워크가 필요해진다. Summary/Report Jobs DW(혹은 DL)로부터 데이터를 읽어 다시 DW에 쓰는 ETL 과정이다. Raw Data를 읽어서 일종의 리포트 형태나 요약 형태의 테이블을 다시 만드는 용도로 수행한다. 요약 테이블의 경우 SQL의 CTAS를 통해 만들 수 있다. 데이터 엔지니어 관점에서는 어떻게 데이터 분석가들이 편하게 ..
Data Engineering/Airflow
2023. 5. 29. 11:07