일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터엔지니어링
- sql
- airflow.cfg
- S3
- 운영체제
- AWS
- 데이터 웨어하우스
- 가상환경
- 데이터 엔지니어링
- 알고리즘
- 파이썬
- TIL
- 데이터베이스
- dockerfile
- PYTHON
- Django
- ChatGPT
- http
- airflow
- 데이터 파이프라인
- 종류
- 컴퓨터 네트워크
- UDP
- 정리
- 컴퓨터네트워크
- TCP
- 데브코스
- 구조
- redshift
- Docker
- Today
- Total
목록Data Engineering (69)
홍카나의 공부방
HDFSHDFS(Hadoop File System)는 분산 처리에 사용하는 파일 시스템이다. HDFS는 데이터를 클러스터 전체에 걸쳐 분산시키고, 여러 컴퓨터에 걸쳐 저장한 데이터는 각 컴퓨터가 동시에 처리한다. 데이터는 블록 단위로 나누며, 블록은 기본 128MB를 가지게 된다. 모든 블록은 2개 이상의 복사본으로 저장이 된다. 단일 노드가 다운되더라도 블록을 잃어버리지 않기 위함이다. 노드의 종류Node의 종류는 크게 다음 3가지 노드로 나눈다.Name Node(네임 노드)Client Node(클라이언트 노드)Data Node(데이터 노드) 네임 노드는 쉽게 말하면 관리자 노드로, 어떤 데이터가 어디에 저장되어 있는지를 관리한다. 도서관 관리자가 어떤 책이 어느 선반에 있는지 알고 있는 것처럼,..
0. 하둡 실습 환경 구축 준비Udemy에서 아래 하둡 강의로 하둡 에코시스템에 대한 학습을 진행하려고 했다.강의에서는 VirtualBox의 우분투 이미지로 가상머신을 하나 올려서 실습을 진행한다. 그러나 나같은 경우 M1 Mac을 사용하고 있어서 VirtualBox 사용이 어렵기도 하고, 그렇다고 강의만 들으려니 실습을 하고 싶은 마음이 커서 컴퓨팅 자원을 하나 빌리기로 했다. 제일 흔한 선택지는 AWS EC2다. 프리티어 요금제를 기준으로 공짜로 빌릴 수 있는 t2.micro의 경우 RAM 1GB 짜리 인스턴스를 제공한다. 그러나 실습에 필요한 RAM이 최소 8GB라고 권장되므로, AWS에서 유료로 컴퓨팅 자원을 빌리거나 GCP처럼 다른 클라우드 서비스에서 AWS의 무료 t2.micro보다 합리적으로..
airflow 2.4.0 버전 이후 airflow의 DummyOperator는 EmptyOperator로 대체되었습니다. from airflow.operators.empty import EmptyOperator EmptyOperator는 기존 팬아웃(Fan-Out) 방식의 DAG 구성 전략에 사용하던 DummyOperator랑 똑같이 사용하면 됩니다.
에어플로우 한글 책 p.12에서 Airflow의 스케쥴러가 DAG 내용을 파싱해서 task간 예약 주기(schedule interval), 의존성(dependency)을 체크한다는 내용이 나옵니다. 그런데 해당 페이지 중간 부분에 3. 예약된 각 태스크에 대해 스케줄러는 해당 태스크의 의존성(=업스트림 태스크)을 확인합니다. 의존성 태스크가 완료되지 않았다면 실행 대기열에 추가합니다. 이런 문장이 나와있습니다. 그런데 p.13에 나온 그림1.9랑 확인해보면 스케쥴러가 태스크 의존성이 모두 해결되었을 때 실행할 태스크를 대기열에 추가한다고 나와 있습니다. 앞뒤 내용이 다르죠. 어느 내용이 정확한지 결론부터 말씀드리면 후자(의존성이 모두 해결되었을 때 Execution Queue에 추가)가 맞습니다. (1)..