일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Django
- 종류
- HADOOP
- PYTHON
- 데이터 파이프라인
- 운영체제
- TCP
- Docker
- sql
- Go
- AWS
- dockerfile
- redshift
- 자료구조
- http
- airflow
- 컴퓨터 네트워크
- 컴퓨터네트워크
- TIL
- linux
- 가상환경
- 데이터 엔지니어링
- 파이썬
- S3
- 데이터베이스
- 데이터 웨어하우스
- 데브코스
- 정리
- 데이터엔지니어링
- airflow.cfg
- Today
- Total
목록분류 전체보기 (183)
홍카나의 공부방

트랜잭션이란? 한꺼번에 수행되어야 할 SQL문들의 집합 회복 작업과 병행 제어 처리를 위한 기본 단위로 사용된다. 이 글에서도 가볍게 정리하였다. 트랜잭션의 특성 (ACID) 트랜잭션의 특징을 ACID라고 줄여서 이야기한다. Atomicity, Consistency, Isolation, Durability의 줄임말이다. 데이터베이스에서 굉장히 중요한 개념이라고 한다. Atomicity(원자성) All-or-Nothing. 트랜잭션에 속한 연산들은 모두 수행되거나 하나도 실행되지 않아야 한다. 즉, 트랜잭션 안의 연산들은 분리될 수 없다. ( 부분적으로 실행될 수 없다. ) 트랜잭션 수행 도중 장애가 발생할 경우, 실행된 모든 연산을 취소하고 DB를 작업 전 상태로 돌려놔야 한다. Consistency(일..
Redshift 권한과 보안 일반적으로 사용자별 테이블 권한 설정은 하지 않는다. 복잡하고, 실수의 가능성이 높기 때문이다. 역할(Role) 혹은 그룹(Group) 별로 스키마 접근 권한을 주는 것이 일반적이다. Role은 계승 구조를 지원하고, Group은 그렇지 않기 때문에 역할 기반 관리가 새로운 트렌드가 된다. 아래와 같은 구조로 그룹(역할)별 권한을 설정할 수 있다. 스키마, 그룹(역할) analytics_authors analytics_users pii_users admin raw_data 테이블들 읽기 읽기 X 읽기, 쓰기 analytics 테이블들 읽기, 쓰기 읽기 X 읽기, 쓰기 adhoc 테이블들 읽기, 쓰기 읽기, 쓰기 X 읽기, 쓰기 pii 테이블들 X X 읽기 읽기, 쓰기 사용자는..

AWS Redshift 특징 OLAP 기술을 사용하므로, 응답속도가 빠르지 않기 때문에 Production DB로 사용이 불가능하다. 디스크에 데이터를 레코드 별로 저장하는 것이 아니라, 컬럼 별로 저장한다. 컬럼별 압축이 가능하며, 컬럼을 추가하거나 삭제하는 것이 아주 빠르다. 레코드가 들어있는 파일을 S3로 업로드 후, COPY 명령어로 Redshift로 일괄 복사하는 벌크 업데이트를 지원한다. 고정 비용 SQL 엔진이지만, 최근 가변 비용 옵션도 제공한다. RedShift 최적화는 비교적 복잡하다. 한 클러스터 안에 두 대 이상의 노드로 구성되면 분산 저장되어야 한다. SnowFlake나 Bigquery는 엔진이 알아서 최적화를 해주긴 하지만, redshift는 그렇지 않다. 다른 데이터 웨어하우스..

데이터 팀의 Vision과 하는 일 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 만든다. 그 기업의 본업을 더 잘 영위할 수 있게 만든다. 의사 결정권자에게 데이터를 고려한 결정(data informed decisions)을 가능하게끔 돕는다. ex) 데이터 기반의 지표를 정의하고, 대시보드 & 리포트 생성 등의 작업을 수행한다. - Data Analyst가 주로 하는 일 ex) 개인화를 바탕으로 추천과 검색 기능을 제공하는 것처럼, 머신러닝과 같은 알고리즘으로 사용자의 서비스 경험을 개선한다. - Data Scientist가 주로 하는 일 데이터의 흐름과 데이터 팀의 발전 단계 데이터 엔지니어는 여러 source에서 발생한 데이터를 추출하고 정제하여 데이터 인프라를 구축하는 일과 데이터 인프라를 관리..