일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데브코스
- 가상환경
- linux
- 데이터 엔지니어링
- TIL
- Go
- airflow.cfg
- PYTHON
- 데이터 파이프라인
- AWS
- dockerfile
- 컴퓨터네트워크
- Docker
- 데이터엔지니어링
- http
- 자료구조
- 종류
- Django
- S3
- 컴퓨터 네트워크
- TCP
- HADOOP
- sql
- redshift
- 운영체제
- airflow
- 데이터베이스
- 파이썬
- 정리
- 데이터 웨어하우스
- Today
- Total
목록Data Engineering (95)
홍카나의 공부방
정규화(Normalization) 요약 사실상 DB(스키마) 설계를 완성하는 마지막 단계 각종 이상 현상(삽입 이상, 갱신 이상, 삭제 이상)을 해결하면서 데이터베이스 설계를 올바르게 해가는 과정이다. 이상 현상이 발생하지 않도록 테이블을 분해하는 과정이다. 함수 종속(Functional Dependency) 위와 같은 이상(anomal) 현상의 원인은 속성들 간에 존재하는 여러 종속관계를 하나의 테이블에 표현함에 있다. 정규화는 함수적 종속성을 판단하여 수행하게 된다. 이 함수적 종속성이란 속성들 간의 관련성을 이야기한다. 결정자인 X와 종속자인 Y는 특정 테이블 내 속성들의 부분집합이다. X가 Y를 함수적으로 결정한다는 것은, 테이블의 모든 레코드에 대하여 하나의 X값에 대한 Y값은 항상 하나라는 점..
DB - 디스크와 메인 메모리 일반적으로 데이터베이스의 데이터는 디스크에 상주한다. 그래서 트랜잭션이 데이터베이스의 데이터를 처리하기 위해서는 데이터를 디스크에서 메인 메모리로 가져와서 연산을 진행한 다음 그 결과를 디스크로 보내는 작업이 필요하다. 디스크에서 메모리로 데이터를 읽어들이는 input() 연산의 경우, 연산을 뒤로 미루지 않는다. 예를 들어 우리가 SELECT 문으로 디스크에 있는 데이터를 조회해야 할 때, output() 연산처럼 이를 미루지 않고 바로 읽어들인다는 것(On-demand)이다. 단, 메모리에서 디스크로 데이터를 저장하는 output() 연산의 경우, 그 즉시 일어나지 않고 DBMS의 버퍼 관리자(Buffer Manager)가 처리한다. DB 장애 모순의 이유로 DB에서 장..
트랜잭션이란? 한꺼번에 수행되어야 할 SQL문들의 집합 회복 작업과 병행 제어 처리를 위한 기본 단위로 사용된다. 이 글에서도 가볍게 정리하였다. 트랜잭션의 특성 (ACID) 트랜잭션의 특징을 ACID라고 줄여서 이야기한다. Atomicity, Consistency, Isolation, Durability의 줄임말이다. 데이터베이스에서 굉장히 중요한 개념이라고 한다. Atomicity(원자성) All-or-Nothing. 트랜잭션에 속한 연산들은 모두 수행되거나 하나도 실행되지 않아야 한다. 즉, 트랜잭션 안의 연산들은 분리될 수 없다. ( 부분적으로 실행될 수 없다. ) 트랜잭션 수행 도중 장애가 발생할 경우, 실행된 모든 연산을 취소하고 DB를 작업 전 상태로 돌려놔야 한다. Consistency(일..
Redshift 권한과 보안 일반적으로 사용자별 테이블 권한 설정은 하지 않는다. 복잡하고, 실수의 가능성이 높기 때문이다. 역할(Role) 혹은 그룹(Group) 별로 스키마 접근 권한을 주는 것이 일반적이다. Role은 계승 구조를 지원하고, Group은 그렇지 않기 때문에 역할 기반 관리가 새로운 트렌드가 된다. 아래와 같은 구조로 그룹(역할)별 권한을 설정할 수 있다. 스키마, 그룹(역할) analytics_authors analytics_users pii_users admin raw_data 테이블들 읽기 읽기 X 읽기, 쓰기 analytics 테이블들 읽기, 쓰기 읽기 X 읽기, 쓰기 adhoc 테이블들 읽기, 쓰기 읽기, 쓰기 X 읽기, 쓰기 pii 테이블들 X X 읽기 읽기, 쓰기 사용자는..