일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Django
- 운영체제
- 컴퓨터 네트워크
- sql
- S3
- 파이썬
- Docker
- 데브코스
- airflow.cfg
- 컴퓨터네트워크
- HADOOP
- 데이터베이스
- 자료구조
- 데이터 엔지니어링
- AWS
- 데이터 파이프라인
- PYTHON
- TCP
- 데이터 웨어하우스
- redshift
- Go
- 종류
- airflow
- 가상환경
- linux
- 데이터엔지니어링
- dockerfile
- http
- 정리
- TIL
- Today
- Total
목록Data Engineering/Database (19)
홍카나의 공부방
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cVUJK2/btsf2VWK717/MkZMTIgvazwKnBtGXCctZ1/img.png)
임시 저장해 둔 글이 3번이나 날라갔다...... 의도치 않게 이 내용을 3번 이상 작성했다. 저장 잘하자. 데이터베이스의 저장 구조 데이터베이스 데이터의 용도에 맞게 적절하게 디스크에 저장할 필요가 있다. 그래서 가장 효율적인 저장구조를 선택하는 과정을 살펴본다. 이 과정은 DB의 쿼리 및 트랜잭션을 분석하여 데이터에 대한 접근 방식과 빈도를 고려하는 DB의 물리적 설계와 같다. 물리적 저장 장치에 데이터를 배치하고 접근하는 방법을 파일의 조직 방법이라고 한다. 파일 조직의 유형에는 순차 방법, 인덱스 방법, 해시 방법이 있는데 전부 살펴본다. 순차 방법 순차 방법의 대표적인 파일 유형으로는 힙 파일(heap file)이 있다. 레코드들이 삽입된 순서대로 파일에 저장된다. 힙 파일은 쉽다. 새로운 레코..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/VG6LS/btsfA3tQZ73/iUBKLKjukWJ0ZdRWtKf6Yk/img.png)
데이터베이스의 저장 데이터베이스는 일반적으로 하드 디스크, SSD에 저장된다. 만약 하드 디스크에 저장된다고 한다면, 하드 디스크가 데이터를 저장하고 접근하는 방식을 알아야 DB를 사용할 때 어떻게 데이터를 빠르게 read & write할지 결정할 수 있다. ( 디스크는 느려서, 저장 방식을 알아야 한다. ) 그래서 하드 디스크의 데이터 저장 방식을 먼저 알아본다. Hard Disk의 구조 하드 디스크는 수많은 플랫터로 구성되어 있다. 그리고 플랫터의 중심축 부분을 스핀들이라고 한다. 한 플랫터는 양면으로 있고, 플랫터에는 수많은 트랙들이 있다. 트랙을 또 나눌 수 있는데, 위 그림처럼 트랙을 나눈 부분을 섹터라고 부른다. 보통 섹터는 512바이트로 나눈다. 같은 위치의 트랙을 실린더라고 한다. 보통 데..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/caL5ov/btsd0tQcS0t/f8lYrdvY692hGn3Y2LyRi1/img.png)
관계형 데이터베이스 개요 구조화된 데이터를 저장하고 질의할 수 있도록 해주는 저장소다. 엑셀 스프레드시트 형태의 테이블 구조로 데이터를 정의하고 저장한다. 각 행은 테이블에 저장된 특정 데이터 레코드를 나타낸다. 각 열은 특정 유형의 데이터를 저장하는 데 사용된다. 릴레이션 강의에서 언급되지는 않았지만, 릴레이션의 개념을 짚고 넘어갈 필요가 있다. 릴레이션(relation)은 하나의 개체(entity)에 관한 데이터를 2차원 테이블의 구조로 저장한 것이다. 릴레이션은 튜플(행, 데이터 레코드)의 집합으로 구성되며, 각 튜플은 속성(attribute)의 값으로 구성된다. 그리고 하나의 속성이 가질 수 있는 모든 값의 집합을 도메인(domain)이라고 정의한다. 하나의 릴레이션에서 속성의 전체 개수를 차수(..