Spark

    [Spark] RDD(Resillient Distributed Data)란?

    [Spark] RDD(Resillient Distributed Data)란?

    Spark 의 데이터 구조 Spark 의 데이터 구조는 아래와 같이 크게 3가지 종류로 분류할 수 있다. RDD (Resillient Distributed Data) Dataframe Dataset 이 중 RDD는 Spark에 가장 먼저 도입된 데이터 구조이다. RDD 개념 RDD(Resillient Distributed Data)란? Resillient (회복력 있는, 변하지 않는) 메모리 내부의 데이터가 손실되었을 때, 유실된 파티션을 재연산해 데이터를 복구할 수 있음 Distributed (분산된) 스파크 클러스터를 통하여, 메모리에 분산되어 저장됨 Data 파일, 정보 등의 데이터 즉, RDD 는 여러 분산 노드에 걸쳐 저장되는, 변경이 불가능한 데이터의 집합이다. 따라서, RDD 를 변경하기 위..