일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- TIL
- UDP
- airflow
- 데브코스
- TCP
- PYTHON
- Docker
- S3
- 파이썬
- 데이터 파이프라인
- redshift
- dockerfile
- HADOOP
- 데이터베이스
- airflow.cfg
- 데이터 엔지니어링
- 컴퓨터네트워크
- 종류
- 데이터 웨어하우스
- 데이터엔지니어링
- AWS
- 컴퓨터 네트워크
- sql
- 정리
- 가상환경
- 구조
- 알고리즘
- http
- Django
- 운영체제
- Today
- Total
목록전체 글 (165)
홍카나의 공부방
이번 글은 유데미 - 하둡 강좌에서 알려주는 내용을 바탕으로 실제 빅데이터 처리에 빈번하게 사용하는 스파크에 대해서 알아보는 글이다. 이 글에서 설명하는 배경지식은 모두 스파크 2.x 버전을 기준으로 함을 미리 알린다. ( 스파크 3.x 기준은 추후 작성 예정 ) Apache Spark 스파크는 대규모 데이터셋 처리에 사용하는 프레임워크다. 스파크는 다음과 같은 특징이 있다. 매퍼와 리듀서의 관점에서 생각해야 하는 맵리듀스의 제약을 벗어날 수 있다.맵리듀스보다 10~100배는 빠를 수 있다.생태계가 풍부하다.DAG Engine이 내장되어 있다.Java, Scala, Python과 같은 친숙한 언어로 작성이 가능하다. ( 스파크는 Scala를 기반으로 만들어졌다. )스파크는 하나의 주된 개념을 기반으로 ..
Why Pig? 하둡 에코시스템 내부의 Pig는 분산 데이터 처리를 목적으로 사용하는 프로그램이다.Hadoop의 기본 데이터 처리 구조인 Mapper와 Reducer의 프레임에 맞춰서 개발하기 쉽지 않은 문제들도 있을 것인데, 이럴 때 사용할 수 있는 대안중 하나가 바로 Pig다. Pig는 맵리듀스 위에서 작동하고, Pig Latin이라는 새로운 프로그래밍 언어를 사용한다. 그리고 절차형 언어로, 언어 자체가 SQL과 굉장히 유사한 특징을 가지고 있어 SQL에 익숙하다면 쉽게 배울 수 있는 언어다. Pig Latin은 내부적으로 맵리듀스 작업으로 변환되어 Hadoop 클러스터에서 실행된다. Pig의 사용법 Pig를 사용할 수 있는 방법은 여러 가지가 있다.첫 번째로는 명령줄 해석 프로그램인 Grunt를..
HDFSHDFS(Hadoop File System)는 분산 처리에 사용하는 파일 시스템이다. HDFS는 데이터를 클러스터 전체에 걸쳐 분산시키고, 여러 컴퓨터에 걸쳐 저장한 데이터는 각 컴퓨터가 동시에 처리한다. 데이터는 블록 단위로 나누며, 블록은 기본 128MB를 가지게 된다. 모든 블록은 2개 이상의 복사본으로 저장이 된다. 단일 노드가 다운되더라도 블록을 잃어버리지 않기 위함이다. 노드의 종류Node의 종류는 크게 다음 3가지 노드로 나눈다.Name Node(네임 노드)Client Node(클라이언트 노드)Data Node(데이터 노드) 네임 노드는 쉽게 말하면 관리자 노드로, 어떤 데이터가 어디에 저장되어 있는지를 관리한다. 도서관 관리자가 어떤 책이 어느 선반에 있는지 알고 있는 것처럼,..
0. 하둡 실습 환경 구축 준비Udemy에서 아래 하둡 강의로 하둡 에코시스템에 대한 학습을 진행하려고 했다.강의에서는 VirtualBox의 우분투 이미지로 가상머신을 하나 올려서 실습을 진행한다. 그러나 나같은 경우 M1 Mac을 사용하고 있어서 VirtualBox 사용이 어렵기도 하고, 그렇다고 강의만 들으려니 실습을 하고 싶은 마음이 커서 컴퓨팅 자원을 하나 빌리기로 했다. 제일 흔한 선택지는 AWS EC2다. 프리티어 요금제를 기준으로 공짜로 빌릴 수 있는 t2.micro의 경우 RAM 1GB 짜리 인스턴스를 제공한다. 그러나 실습에 필요한 RAM이 최소 8GB라고 권장되므로, AWS에서 유료로 컴퓨팅 자원을 빌리거나 GCP처럼 다른 클라우드 서비스에서 AWS의 무료 t2.micro보다 합리적으로..