일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- S3
- PYTHON
- AWS
- 데이터엔지니어링
- Docker
- 데브코스
- Go
- Django
- redshift
- 파이썬
- 데이터베이스
- HADOOP
- 데이터 웨어하우스
- http
- airflow
- 컴퓨터네트워크
- dockerfile
- TIL
- TCP
- 데이터 파이프라인
- airflow.cfg
- 종류
- sql
- 컴퓨터 네트워크
- 정리
- 데이터 엔지니어링
- 가상환경
- 자료구조
- linux
- 운영체제
- Today
- Total
목록분류 전체보기 (183)
홍카나의 공부방
Operator(오퍼레이터) - 특정 행위를 할 수 있는 기능을 모아 놓은 클래스, 설계도 - Bash 오퍼레이터는 쉘 스크립트 명령을 수행하는 오퍼레이터 - Python, S3, GCS는 각각 파이썬, AWS S3, GCP의 GCS를 컨트롤 할 수 있게 만들어주는 오퍼레이터 Task(태스크) - 오퍼레이터에서 객체화(인스턴스화)되어 DAG에서 실행 가능한 오브젝트 - Task는 방향성을 가지고 있고, 순환되지 않는 형태로 연결되어 있음(비순환 그래프의 특징) Scheduler(스케쥴러) - DAG 파일을 파싱하고 메타 DB에 정보를 저장하는 역할을 한다. - start time을 확인하고 워커에게 실제 작업을 수행하라는 명령을 내린다. Worker(워커) - DAG 코드를 읽어 들인 후, 실제 작업을 ..
리눅스에서 파이썬 Airflow 라이브러리를 설치하면 Airflow를 사용할 수 있다. 그런데 WSL에서 pip install 명령으로 Airflow를 설치하지 않고, Docker를 사용하는 이유는 1. pip install로 airflow를 설치하면 저사양의 아키텍쳐로 설치가 된다. 실사용에 여러 제약이 생긴다. 2. Task를 한 번에 1개씩만 실행하거나, MetaDB를 제약이 많은 SQLlite로 사용하게 된다. 그래서 Docker로 설치해서 쓰는 경우가 대부분이다.
WSL WSL은 Windows Subsystem for Linux의 약자다. 윈도우에서 리눅스 실행환경을 지원하는 Windows의 확장 기능이라고 생각하면 된다. 윈도우에서 바로 리눅스 명령어를 실행할 수 있어서, 윈도우와 리눅스를 함께 사용하기에 용이하다. Airflow는 Windows 운영체제를 직접 지원하지 않아, 리눅스 환경에 설치해야 한다. cmd에서 아래 명령어로 wsl을 설치할 수 있다. wsl --install 설치후에 Powershell을 관리자 모드로 키고, wsl -l -v로 WSL 버전을 확인한다. VERSION 컬럼을 확인하면 된다.
사용한 데이터는 아래의 train.csv를 사용 https://www.kaggle.com/competitions/titanic Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 이 글은 코드로 여러가지 예시를 설명하는 글. 혼자 학습용으로 기록해둔거라 가독성이 좋지 않고, 그냥 읽기엔 불친절한 글. 먼저 csv의 자료형을 살펴본 뒤 그에 맞춰서 CREATE TABLE을 하거나, MySQL Workbench를 통해서 csv 파일을 Import해주기. table 이름은 datas로 해줬음. 1. 결측치 개수 출력 방법 -- 결측치 개수 출력하기 SELECT SUM(CASE WHEN PassengerId IS NULL THEN 1 ELSE 0 ..