일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- airflow
- PYTHON
- 데이터 엔지니어링
- S3
- 정리
- AWS
- 데이터 웨어하우스
- Go
- 운영체제
- Django
- redshift
- 데이터 파이프라인
- linux
- 데브코스
- TCP
- 데이터베이스
- 가상환경
- http
- 종류
- Docker
- 데이터엔지니어링
- dockerfile
- 자료구조
- sql
- airflow.cfg
- 파이썬
- HADOOP
- 컴퓨터네트워크
- 컴퓨터 네트워크
- TIL
- Today
- Total
목록Data Engineering/Hadoop (6)
홍카나의 공부방
몽고DB는 문서 기반의 NoSQL 데이터베이스로, 굉장히 유연한 모델을 가지고 있다. 어떤 내용도 구조화될 필요 없이 저장할 수 있으며, 원하는 모든 내용을 다 저장할 수 있다! 또한 Hadoop, Spark와 통합해서 사용하면 강력한 빅데이터 활용 도구로도 사용할 수 있다. 또한, 몽고DB에는 스키마를 적용하지 않는다. 자동으로 PK 역할을 하는 ID가 만들어지며, 원한다면 인덱스를 추가할 수 있다. 하지만 모든 NoSQL이 그렇듯이 Join은 RDBMS에 비해 효율적으로 할 수 없다. 스키마의 경우 아래 코드 예시처럼 구성할 수 있으며, 기타 다른 데이터 모델링 방법의 경우 공식문서의 가이드를 참고하면 좋다.{ "_id": "user123", "name": "홍카나", "email": "hong..
Apache Hive Hive는 HDFS에 저장된 데이터에 대해 SQL 쿼리를 사용하여 데이터를 추출할 수 있게 만들어주는 프로그램이다. 사용자 입장에서는 DW를 사용하는 것처럼 SQL을 이용하면 된다. SQL에 친숙하다면 Hive는 강력한 도구가 될 수 있다. 특히 OLAP 쿼리를 주로 사용한다면 Java로 MapReduce를 작성해서 사용하는 것보다 훨씬 유리할 수 있다. 단, SQL 명령어를 MapReduce로 번역한다는 특징 때문에 처리 속도가 중요한 OLTP 처리성 쿼리는 적절한 선택이 되지 않을 가능성도 있다. 그리고 Hive는 실제 데이터베이스는 아니라는 점을 기억하고, 보다 세부적으로 알아보자. Hive의 작동 방식읽기 스키마(Schema on Read)Hive에서는 Schema ..
이번 글은 유데미 - 하둡 강좌에서 알려주는 내용을 바탕으로 실제 빅데이터 처리에 빈번하게 사용하는 스파크에 대해서 알아보는 글이다. 이 글에서 설명하는 배경지식은 모두 스파크 2.x 버전을 기준으로 함을 미리 알린다. ( 스파크 3.x 기준은 추후 작성 예정 ) Apache Spark 스파크는 대규모 데이터셋 처리에 사용하는 프레임워크다. 스파크는 다음과 같은 특징이 있다. 매퍼와 리듀서의 관점에서 생각해야 하는 맵리듀스의 제약을 벗어날 수 있다.맵리듀스보다 10~100배는 빠를 수 있다.생태계가 풍부하다.DAG Engine이 내장되어 있다.Java, Scala, Python과 같은 친숙한 언어로 작성이 가능하다. ( 스파크는 Scala를 기반으로 만들어졌다. )스파크는 하나의 주된 개념을 기반으로 ..
Why Pig? 하둡 에코시스템 내부의 Pig는 분산 데이터 처리를 목적으로 사용하는 프로그램이다.Hadoop의 기본 데이터 처리 구조인 Mapper와 Reducer의 프레임에 맞춰서 개발하기 쉽지 않은 문제들도 있을 것인데, 이럴 때 사용할 수 있는 대안중 하나가 바로 Pig다. Pig는 맵리듀스 위에서 작동하고, Pig Latin이라는 새로운 프로그래밍 언어를 사용한다. 그리고 절차형 언어로, 언어 자체가 SQL과 굉장히 유사한 특징을 가지고 있어 SQL에 익숙하다면 쉽게 배울 수 있는 언어다. Pig Latin은 내부적으로 맵리듀스 작업으로 변환되어 Hadoop 클러스터에서 실행된다. Pig의 사용법 Pig를 사용할 수 있는 방법은 여러 가지가 있다.첫 번째로는 명령줄 해석 프로그램인 Grunt를..