Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Go
- 컴퓨터네트워크
- AWS
- 파이썬
- 컴퓨터 네트워크
- Docker
- 종류
- TCP
- 데이터엔지니어링
- 데이터베이스
- 데이터 웨어하우스
- 가상환경
- 정리
- HADOOP
- Django
- PYTHON
- airflow.cfg
- airflow
- TIL
- 운영체제
- 자료구조
- sql
- S3
- 데브코스
- http
- 데이터 엔지니어링
- redshift
- dockerfile
- linux
- 데이터 파이프라인
Archives
- Today
- Total
목록rdd (1)
홍카나의 공부방

이번 글은 유데미 - 하둡 강좌에서 알려주는 내용을 바탕으로 실제 빅데이터 처리에 빈번하게 사용하는 스파크에 대해서 알아보는 글이다. 이 글에서 설명하는 배경지식은 모두 스파크 2.x 버전을 기준으로 함을 미리 알린다. ( 스파크 3.x 기준은 추후 작성 예정 ) Apache Spark 스파크는 대규모 데이터셋 처리에 사용하는 프레임워크다. 스파크는 다음과 같은 특징이 있다. 매퍼와 리듀서의 관점에서 생각해야 하는 맵리듀스의 제약을 벗어날 수 있다.맵리듀스보다 10~100배는 빠를 수 있다.생태계가 풍부하다.DAG Engine이 내장되어 있다.Java, Scala, Python과 같은 친숙한 언어로 작성이 가능하다. ( 스파크는 Scala를 기반으로 만들어졌다. )스파크는 하나의 주된 개념을 기반으로 ..
Data Engineering/Hadoop
2024. 5. 19. 15:48