'rdd' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록rdd (1)

홍카나의 공부방

[Hadoop] Apache Spark 2.0 개요와 RDD, DataSet

이번 글은 유데미 - 하둡 강좌에서 알려주는 내용을 바탕으로 실제 빅데이터 처리에 빈번하게 사용하는 스파크에 대해서 알아보는 글이다. 이 글에서 설명하는 배경지식은 모두 스파크 2.x 버전을 기준으로 함을 미리 알린다. ( 스파크 3.x 기준은 추후 작성 예정 ) Apache Spark 스파크는 대규모 데이터셋 처리에 사용하는 프레임워크다. 스파크는 다음과 같은 특징이 있다. 매퍼와 리듀서의 관점에서 생각해야 하는 맵리듀스의 제약을 벗어날 수 있다.맵리듀스보다 10~100배는 빠를 수 있다.생태계가 풍부하다.DAG Engine이 내장되어 있다.Java, Scala, Python과 같은 친숙한 언어로 작성이 가능하다. ( 스파크는 Scala를 기반으로 만들어졌다. )스파크는 하나의 주된 개념을 기반으로 ..

Data Engineering/Hadoop 2024. 5. 19. 15:48

이전 Prev 1 Next 다음

목록rdd (1)

홍카나의 공부방

티스토리툴바