일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- PYTHON
- Docker
- dockerfile
- http
- airflow.cfg
- TIL
- redshift
- S3
- 정리
- airflow
- 파이썬
- sql
- 자료구조
- Go
- 컴퓨터 네트워크
- TCP
- 가상환경
- 데이터 웨어하우스
- 데이터베이스
- 데이터 파이프라인
- 종류
- linux
- AWS
- 컴퓨터네트워크
- 운영체제
- 데이터 엔지니어링
- 데브코스
- Django
- 데이터엔지니어링
- HADOOP
- Today
- Total
목록분류 전체보기 (183)
홍카나의 공부방
https://youtu.be/t6I4Gs_VjGU Global Interpreter Lock(GIL)GIL은 여러 개의 쓰레드가 파이썬 바이트코드를 한 번에 하나만 사용할 수 있도록 Lock을 거는 기법을 의미한다.즉, 파이썬이 실행될 때는 특정 시점에 오직 하나의 쓰레드만 실행된다는 것이다.어떻게 보면 OS에서의 쓰레드 개념을 적극적으로 활용할 수 없게 되는 것이다.그래서 멀티쓰레드를 의도하여 프로그램을 설계해도, GIL 때문에 한 번에 하나의 쓰레드만 실행하게 된다는 것이다. 왜 GIL을 쓰나?먼저 파이썬의 메모리 관리 방식을 알아본다.파이썬은 레퍼런스 카운팅 기법을 이용하여 메모리를 관리한다.레퍼런스 카운팅은 Python에서 생성된 객체가, 특정 객체를 가리키는 참조의 수를 추적하는 Count 변..
https://repost.aws/ko/knowledge-center/redshift-s3-cross-account Amazon Redshift의 다른 계정에서 데이터를 복사하거나 언로드합니다. Amazon Redshift와 다른 계정에 있는 Amazon Simple Storage Service(S3) 버킷 간에 데이터를 COPY 또는 UNLOAD하려고 합니다. 하지만 다른 계정에서 AWS Identity and Access Management(IAM) 역할을 수임할 수 없습니다. 교 repost.aws 이 글을 따라하면 된다. 1. Amazon S3 계정에서 IAM 역할인 RoleA를 생성합니다. 2. RoleA를 수임할 권한이 있는 Amazon Redshift 계정에서 IAM 역할 RoleB를 생성합..
Airflow 소개 파이썬으로 만들어진 데이터 파이프라인 (ETL) 프레임워크다. 데이터 파이프라인 스케줄링을 지원하여, 정해진 시간에 ETL을 실행하거나 그 다음 ETL을 실행한다. Airflow에서는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부른다. DAG는 Task로 구성된다. ( 예를 들어 3개의 태스크로 구성된다면 Extract, Transform, Load로 구성 ) 하나의 DAG는 하나 이상의 태스크로 구성된다. 태스크는 Airflow의 Operator로 만들어진다. Airflow에서 이미 다양한 종류의 오퍼레이터를 제공한다. 경우에 오퍼레이터를 결정해서 사용할 수 있다. Airflow 구성 Airflow는 웹 서버, 스케줄러, 워커, 메타 데이터 데이터베이스..
Raw Data ETL jobs 내부 혹은 외부 데이터 소스에서 데이터를 읽어서, 적당한 포맷 변환을 거친 뒤 데이터 웨어하우스에 로드하는 것 외부 데이터 소스는 많은 경우 API를 통하게 된다. 내부 데이터 소스는 내부 ProductionDB(MySQL 등)이 원천지가 된다. Transform 단계에서 데이터의 크기가 커지면 Spark 등의 빅데이터 처리 프레임워크가 필요해진다. Summary/Report Jobs DW(혹은 DL)로부터 데이터를 읽어 다시 DW에 쓰는 ETL 과정이다. Raw Data를 읽어서 일종의 리포트 형태나 요약 형태의 테이블을 다시 만드는 용도로 수행한다. 요약 테이블의 경우 SQL의 CTAS를 통해 만들 수 있다. 데이터 엔지니어 관점에서는 어떻게 데이터 분석가들이 편하게 ..