일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 컴퓨터 네트워크
- 파이썬
- Django
- 종류
- airflow
- 데이터 웨어하우스
- sql
- 데이터 엔지니어링
- PYTHON
- 데이터베이스
- 데이터엔지니어링
- Docker
- redshift
- 가상환경
- 컴퓨터네트워크
- HADOOP
- 데브코스
- 운영체제
- TIL
- 정리
- airflow.cfg
- TCP
- linux
- AWS
- S3
- 자료구조
- dockerfile
- http
- 데이터 파이프라인
- Go
- Today
- Total
목록Data Engineering (95)
홍카나의 공부방
AWS Redshift 특징 OLAP 기술을 사용하므로, 응답속도가 빠르지 않기 때문에 Production DB로 사용이 불가능하다. 디스크에 데이터를 레코드 별로 저장하는 것이 아니라, 컬럼 별로 저장한다. 컬럼별 압축이 가능하며, 컬럼을 추가하거나 삭제하는 것이 아주 빠르다. 레코드가 들어있는 파일을 S3로 업로드 후, COPY 명령어로 Redshift로 일괄 복사하는 벌크 업데이트를 지원한다. 고정 비용 SQL 엔진이지만, 최근 가변 비용 옵션도 제공한다. RedShift 최적화는 비교적 복잡하다. 한 클러스터 안에 두 대 이상의 노드로 구성되면 분산 저장되어야 한다. SnowFlake나 Bigquery는 엔진이 알아서 최적화를 해주긴 하지만, redshift는 그렇지 않다. 다른 데이터 웨어하우스..
데이터 팀의 Vision과 하는 일 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 만든다. 그 기업의 본업을 더 잘 영위할 수 있게 만든다. 의사 결정권자에게 데이터를 고려한 결정(data informed decisions)을 가능하게끔 돕는다. ex) 데이터 기반의 지표를 정의하고, 대시보드 & 리포트 생성 등의 작업을 수행한다. - Data Analyst가 주로 하는 일 ex) 개인화를 바탕으로 추천과 검색 기능을 제공하는 것처럼, 머신러닝과 같은 알고리즘으로 사용자의 서비스 경험을 개선한다. - Data Scientist가 주로 하는 일 데이터의 흐름과 데이터 팀의 발전 단계 데이터 엔지니어는 여러 source에서 발생한 데이터를 추출하고 정제하여 데이터 인프라를 구축하는 일과 데이터 인프라를 관리..
살펴볼 옵션들 AWS Redshift Snowflake BigQuery Apache Hive, Presto Apache Iceberg+Spark Iceberg는 스토리지에 가깝긴 하다. AWS Redshift PB 스케일 데이터 분산 처리가 가능한 AWS 기반 데이터 웨어하우스다. PostgreSQL과 호환된다. CSV, JSON, Avro, Parquet 등 다양한 데이터 포맷을 지원한다. S3, RDS, DynamoDB와 같은 AWS 서비스들과 연동이 쉽다. 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다. Snowflake 클라우드 기반 데이터 웨어하우스다. ETL과 다양한 데이터 통합 기능을 제공한다. SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해준다. 비구조화된 데이터..
데이터 파이프라인이란? 다양한 소스에서 새로운 가치를 얻을 수 있게끔 데이터를 옮기고, 변환하는 일련의 과정을 의미한다. 쉽게 이야기하면 소스에서 목적지로 데이터를 옮기거나, 복사하는 작업이다. 통계 분석, 리포팅, 머신러닝 분석에 필요한 선행 과정이다. 단순한 형태의 데이터 파이프라인은? REST API처럼 단일 소스에서 데이터를 추출하여 S3와 같은 데이터 레이크(스토리지)에 저장하고, 이를 데이터 웨어하우스에 로드하는 것이 단순한 데이터 파이프라인 구조의 예시다. 그러나 모든 데이터 파이프라인이 이처럼 간단하진 않다. 데이터 추출, 데이터 가공, 데이터 유효성 검사 단계를 포함할 수도 있고, 때로는 데이터를 최종 목적지로 전달하기 전에 머신러닝 모델링을 거치는 단계도 존재할 수 있다. 소스 데이터를..