Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- dockerfile
- sql
- 가상환경
- airflow
- 데브코스
- TCP
- 종류
- 데이터베이스
- 데이터 웨어하우스
- 데이터엔지니어링
- 데이터 엔지니어링
- http
- 데이터 파이프라인
- 컴퓨터네트워크
- 파이썬
- 자료구조
- Go
- S3
- PYTHON
- Django
- 컴퓨터 네트워크
- TIL
- linux
- HADOOP
- Docker
- redshift
- 운영체제
- AWS
- airflow.cfg
- 정리
Archives
- Today
- Total
목록ELT (1)
홍카나의 공부방

데이터 파이프라인이란? 다양한 소스에서 새로운 가치를 얻을 수 있게끔 데이터를 옮기고, 변환하는 일련의 과정을 의미한다. 쉽게 이야기하면 소스에서 목적지로 데이터를 옮기거나, 복사하는 작업이다. 통계 분석, 리포팅, 머신러닝 분석에 필요한 선행 과정이다. 단순한 형태의 데이터 파이프라인은? REST API처럼 단일 소스에서 데이터를 추출하여 S3와 같은 데이터 레이크(스토리지)에 저장하고, 이를 데이터 웨어하우스에 로드하는 것이 단순한 데이터 파이프라인 구조의 예시다. 그러나 모든 데이터 파이프라인이 이처럼 간단하진 않다. 데이터 추출, 데이터 가공, 데이터 유효성 검사 단계를 포함할 수도 있고, 때로는 데이터를 최종 목적지로 전달하기 전에 머신러닝 모델링을 거치는 단계도 존재할 수 있다. 소스 데이터를..
Data Engineering
2023. 5. 22. 16:05