일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- S3
- 데브코스
- PYTHON
- linux
- airflow.cfg
- Django
- 데이터엔지니어링
- http
- 데이터 웨어하우스
- dockerfile
- 자료구조
- 가상환경
- 운영체제
- AWS
- airflow
- 파이썬
- 정리
- TIL
- 종류
- TCP
- redshift
- HADOOP
- 데이터 엔지니어링
- 컴퓨터네트워크
- Go
- 컴퓨터 네트워크
- 데이터베이스
- Docker
- 데이터 파이프라인
- sql
- Today
- Total
목록Data Engineering/프로그래머스 데브코스 (28)
홍카나의 공부방
Hello World DAG 만들어보기 Python Operator를 이용하여 Airflow dag를 만들어본다. from airflow.operators.python import PythonOperator from datetime import datetime from airflow import DAG dag = DAG( dag_id ="helloWorld", start_date = datetime(2021,8,26), catchup=False, tags = ['example'], schedule = '0 2 * * *' ) def print_hello(): print("hello!") return "hello!" def print_world(): print("world!") return "world!"..
DELETE FROM vs TRUNCATE 분명 DROP까지 포함해서 삭제 쿼리문들의 차이점을 정리해놨었는데, 트랜잭션에서 레코드를 다 날려버릴 때 왜 DELETE를 쓰지? 잠시나마 고민했었다. 생각해보니 TRUNCATE가 auto commit이 되는 명령어라 트랜잭션을 이용하기 어렵겠구나하는 판단이 들었다. https://hongcana.tistory.com/102 정리본을 다시 읽어보자.. [데이터베이스] 삭제 : DELETE vs DROP vs TRUNCATE 데이터베이스 삭제 명령어 DELETE, DROP, TRUNCATE 모두 DB에서 객체를 삭제하는 데 사용하는 명령어다. 하지만 각각의 명령어는 세세한 차이점을 가지고 있다. DELETE DELETE 문은 테이블에서 특정 레코드 hongcana..
Redshift 권한과 보안 일반적으로 사용자별 테이블 권한 설정은 하지 않는다. 복잡하고, 실수의 가능성이 높기 때문이다. 역할(Role) 혹은 그룹(Group) 별로 스키마 접근 권한을 주는 것이 일반적이다. Role은 계승 구조를 지원하고, Group은 그렇지 않기 때문에 역할 기반 관리가 새로운 트렌드가 된다. 아래와 같은 구조로 그룹(역할)별 권한을 설정할 수 있다. 스키마, 그룹(역할) analytics_authors analytics_users pii_users admin raw_data 테이블들 읽기 읽기 X 읽기, 쓰기 analytics 테이블들 읽기, 쓰기 읽기 X 읽기, 쓰기 adhoc 테이블들 읽기, 쓰기 읽기, 쓰기 X 읽기, 쓰기 pii 테이블들 X X 읽기 읽기, 쓰기 사용자는..
AWS Redshift 특징 OLAP 기술을 사용하므로, 응답속도가 빠르지 않기 때문에 Production DB로 사용이 불가능하다. 디스크에 데이터를 레코드 별로 저장하는 것이 아니라, 컬럼 별로 저장한다. 컬럼별 압축이 가능하며, 컬럼을 추가하거나 삭제하는 것이 아주 빠르다. 레코드가 들어있는 파일을 S3로 업로드 후, COPY 명령어로 Redshift로 일괄 복사하는 벌크 업데이트를 지원한다. 고정 비용 SQL 엔진이지만, 최근 가변 비용 옵션도 제공한다. RedShift 최적화는 비교적 복잡하다. 한 클러스터 안에 두 대 이상의 노드로 구성되면 분산 저장되어야 한다. SnowFlake나 Bigquery는 엔진이 알아서 최적화를 해주긴 하지만, redshift는 그렇지 않다. 다른 데이터 웨어하우스..