일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 웨어하우스
- TIL
- 데이터 엔지니어링
- 데이터 파이프라인
- 정리
- S3
- 컴퓨터 네트워크
- 가상환경
- linux
- 데이터베이스
- sql
- 파이썬
- 데브코스
- http
- airflow
- airflow.cfg
- 컴퓨터네트워크
- TCP
- Go
- PYTHON
- HADOOP
- AWS
- 운영체제
- redshift
- Django
- dockerfile
- 데이터엔지니어링
- 자료구조
- 종류
- Docker
- Today
- Total
목록redshift (4)
홍카나의 공부방
https://repost.aws/ko/knowledge-center/redshift-s3-cross-account Amazon Redshift의 다른 계정에서 데이터를 복사하거나 언로드합니다. Amazon Redshift와 다른 계정에 있는 Amazon Simple Storage Service(S3) 버킷 간에 데이터를 COPY 또는 UNLOAD하려고 합니다. 하지만 다른 계정에서 AWS Identity and Access Management(IAM) 역할을 수임할 수 없습니다. 교 repost.aws 이 글을 따라하면 된다. 1. Amazon S3 계정에서 IAM 역할인 RoleA를 생성합니다. 2. RoleA를 수임할 권한이 있는 Amazon Redshift 계정에서 IAM 역할 RoleB를 생성합..
살펴볼 옵션들 AWS Redshift Snowflake BigQuery Apache Hive, Presto Apache Iceberg+Spark Iceberg는 스토리지에 가깝긴 하다. AWS Redshift PB 스케일 데이터 분산 처리가 가능한 AWS 기반 데이터 웨어하우스다. PostgreSQL과 호환된다. CSV, JSON, Avro, Parquet 등 다양한 데이터 포맷을 지원한다. S3, RDS, DynamoDB와 같은 AWS 서비스들과 연동이 쉽다. 배치 데이터 중심이지만, 실시간 데이터 처리도 지원한다고 한다. Snowflake 클라우드 기반 데이터 웨어하우스다. ETL과 다양한 데이터 통합 기능을 제공한다. SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해준다. 비구조화된 데이터..
1. CSV delimeter를 확인하였는가? - comma(,) vs vertical bar(|) # json 처리 response_json = json.loads(api_response.content) datas = [] location = response_json["iss_position"] datas.append(location["latitude"]) datas.append(location["longitude"]) datas.append(response_json["timestamp"]) print(datas) export_file = "export_file.csv" with open(export_file, "a", newline="") as fp: csvw = csv.writer(fp, delim..
데이터 웨어하우스 여전히 SQL 기반 관계형 데이터베이스의 형태지만, 프로덕션 데이터베이스와 별도로 저장되는 DB다. 회사에 필요한 모든 데이터를 저장하는 DB다. (분석용으로 자주 쓰이는 DB인거지, 분석용 DB요! 라고 답변하면.. 망함) 보통 프로덕션 DB로 만들어놓은 MySQL을 복사하여 AWS Redshfit, BigQuery, Snowflake 등으로 별도 저장한다. 데이터 웨어하우스는 OLAP(Online Analytical Processing) 방법론을 이용하여 분석할 수 있다. 데이터 웨어하우스는 서비스 운영이 아닌 기업 내부의 팀을 위한 데이터 집계/분석/요약용 데이터베이스이므로, 처리속도가 아닌 처리 데이터의 크기가 더 중요해진다. 외부에 존재하는 데이터를 읽어다가 데이터 웨어하우스로..