일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- HADOOP
- TIL
- 데이터 파이프라인
- redshift
- 데이터베이스
- airflow
- 자료구조
- 가상환경
- TCP
- 컴퓨터 네트워크
- 데이터엔지니어링
- linux
- AWS
- PYTHON
- sql
- 컴퓨터네트워크
- Django
- 데브코스
- http
- 파이썬
- Docker
- 데이터 엔지니어링
- S3
- Go
- 데이터 웨어하우스
- airflow.cfg
- 정리
- 종류
- 운영체제
- dockerfile
- Today
- Total
목록데이터 웨어하우스 (3)
홍카나의 공부방
데이터베이스에서 Primary Key(기본키, PK)는 테이블에서 하나의 레코드를 유일하게 지칭할 수 있는 필드(들)이다. RDBMS에서는 PK 값이 중복되지 않도록 유일성(uniqueness)을 보장해 준다. CREATE TABLE products ( product_id INT PRIMARY KEY, name VARCHAR(50), price decimal(7, 2) ); 관계형 DB의 쿼리를 짤 때는 위처럼 필드 명 뒤에 PRIMARY KEY를 지정해 주거나, PRIMARY KEY (product_id, name)으로 다수의 필드를 PK로 지정해 줄 수 있다. (이러면 정규화 측면에서 부분 함수 종속 등이 발생할 수 있지만, 이 글에서는 논외로 한다.) 단, 데이터 웨어하우스들은 기본키 유일성을 보장..
데이터 웨어하우스 여전히 SQL 기반 관계형 데이터베이스의 형태지만, 프로덕션 데이터베이스와 별도로 저장되는 DB다. 회사에 필요한 모든 데이터를 저장하는 DB다. (분석용으로 자주 쓰이는 DB인거지, 분석용 DB요! 라고 답변하면.. 망함) 보통 프로덕션 DB로 만들어놓은 MySQL을 복사하여 AWS Redshfit, BigQuery, Snowflake 등으로 별도 저장한다. 데이터 웨어하우스는 OLAP(Online Analytical Processing) 방법론을 이용하여 분석할 수 있다. 데이터 웨어하우스는 서비스 운영이 아닌 기업 내부의 팀을 위한 데이터 집계/분석/요약용 데이터베이스이므로, 처리속도가 아닌 처리 데이터의 크기가 더 중요해진다. 외부에 존재하는 데이터를 읽어다가 데이터 웨어하우스로..
데이터 웨어하우스, 데이터 마트, 데이터 레이크는 모두 데이터 관리 시스템이지만, 각각의 특징과 목적은 다르다. 데이터 웨어하우스 데이터 웨어하우스는 조직 전체의 데이터를 통합하여 저장하는 데이터 관리 시스템이다. 일반적인 RDB와는 달리 대량의 데이터를 길게 보존하는 것에 최적화 되어있다. 데이터 웨어하우스는 중요한 데이터 처리에 사용되기 때문에 과부하를 적게 주는 것이 중요하다. 데이터 웨어하우스에서 필요한 데이터만을 추출하여 데이터 마트(data mart)를 구축하기도 한다. 데이터 웨어하우스의 데이터는 리포팅 및 분석 쿼리를 위해 정형화(구조화)되고, 최적화되어야 한다. 데이터 마트 데이터 마트는 데이터 웨어하우스에서 ETL을 거쳐 업무에 필요한 데이터만을 추출하여 구성한 데이터 저장소다. 데이터..