일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 가상환경
- 운영체제
- airflow.cfg
- 자료구조
- Docker
- 컴퓨터 네트워크
- sql
- linux
- Go
- http
- 정리
- dockerfile
- AWS
- TIL
- 데이터 파이프라인
- redshift
- 데이터 엔지니어링
- 종류
- 데이터베이스
- 데이터 웨어하우스
- 파이썬
- 데이터엔지니어링
- PYTHON
- airflow
- S3
- Django
- 컴퓨터네트워크
- 데브코스
- TCP
- HADOOP
- Today
- Total
목록분류 전체보기 (183)
홍카나의 공부방

데이터 웨어하우스, 데이터 마트, 데이터 레이크는 모두 데이터 관리 시스템이지만, 각각의 특징과 목적은 다르다. 데이터 웨어하우스 데이터 웨어하우스는 조직 전체의 데이터를 통합하여 저장하는 데이터 관리 시스템이다. 일반적인 RDB와는 달리 대량의 데이터를 길게 보존하는 것에 최적화 되어있다. 데이터 웨어하우스는 중요한 데이터 처리에 사용되기 때문에 과부하를 적게 주는 것이 중요하다. 데이터 웨어하우스에서 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축하기도 한다. 데이터 웨어하우스의 데이터는 리포팅 및 분석 쿼리를 위해 정형화(구조화)되고, 최적화되어야 한다. 데이터 마트 데이터 마트는 데이터 웨어하우스에서 ETL을 거쳐 업무에 필요한 데이터만을 추출하여 구성한 데이터 저장소다. 데이터..

User Datagram Protocol(UDP) 통신에서 신뢰성보다는 속도에 우선순위를 둘 때, 사용하는 프로토콜이다. TCP와 다르게 신뢰성 서비스를 제공하지 않고, 비연결성 서비스이기 때문에 비교적 속도가 빠르다는 장점이 있다. UDP에서는 단위 데이터를 User Datagram이라고 지칭한다. (IP에서는 IP Packet이라고 하는 그것 맞다.) UDP의 헤더는 총 8바이트로, 간단하다. Source, Destination, Total Length, Checksum 으로 구성되어 있다. UDP의 usecase DNS 통신에서 UDP를 사용하기도 한다. DNS 통신(요청과 응답)은 패킷이 많이 필요하지도 않으며, 통신할 내용도 많지 않다. 2개의 패킷(요청, 응답)을 주고 받으려고 연결 설정을 하..

Seaborn Jupyter Notebook이나 Colab 환경을 이용하면 시각화를 보다 편리하게 진행할 수 있다. 하지만 오랜만에 코랩이나 쥬피터를 켜기 귀찮으므로(...) VSCODE로 시각화를 진행한다. VSCODE로 시각화를 이용하려면 VSCODE Extension에서 `Jupyter` Extension을 설치해야 한다. 그리고 파일 맨 위에 `#%%`을 추가하고, `Run Cell`을 누르면 시각화가 진행된다. 임의로 시각화 코드를 작성하여 VScode를 통한 시각화를 진행하였다. 코드는 다음과 같다. # %% import seaborn as sns import matplotlib.pyplot as plt # 한글 폰트 사용을 위한 세팅 from matplotlib import font_mana..

이번 글에서는 전송 계층에 대해 전체적으로 알아본다. Process to Process, Layer 4 L3가 Host to Host 통신에 초점을 맞췄다면 L4에서는 Process to Process 간 통신에 초점을 맞춘다. 그리고 전송 계층의 TCP에서는 흐름제어, 오류제어, 혼잡제어라는 신뢰성 서비스를 제공한다. 전송 계층에는 UDP도 존재하는데 이는 비연결서비스로 구분되고, 이에 반해 TCP는 연결지향서비스로 구분된다. Port 번호 vs Process 번호 Port 번호라는 개념은 많이 들어봤을 것이다. 포트 번호는 네트워크에서 사용되는 '창구'라고 보면 된다. 하지만 우리가 작업관리자를 보면 Process ID라고 하는, 프로세스 번호가 있는데 왜 굳이 Port 번호를 이용하는 것일까? (1..