목록DataFrame (2)
이야기박스
# 개요 Dataframe에 위대함을 깨우쳐 봅시다! 라는 게 이 챕터의 핵심입니다. 표현이 아주 거창하죠? 표현이야 어쨌든 굉장히 편리한 건 사실입니다. Dataframe은 스키마와 강력한 API를 제공하니까요. 스파크를 잘 사용하려면 논리적 계층(어플리케이션 계층)과 물리적 계층(하드웨어 계층)을 모두 잘 알아야 합니다. 여기서 Dataframe은 스파크의 논리적 계층을 대표한다고 보면 될 것 같습니다. RDD(Resilient Distributed Dataset)는 스파크의 초기 데이터셋입니다. 이 챕터에서 다루는 Dataframe은 RDD를 기반으로 구성되었습니다. 그리고 앞으로 Spark를 사용하면서 Dataframe과 Dataset, RDD를 끊임없이 다루게 됩니다. Dataframe, Dat..
# 개요 [Databricks 공식 문서; A Tale of Three Apache Spark APIs: RDDs vs DataFrames and Datasets]의 해석본입니다. 각종 오역이 난무할 수 있습니다. 위 글은 spark 2.2 이후의 내용을 다루고 있고 RDD, DataFrame, Datasets의 API 관점에서 작성되었습니다. 특히, spark 2.0에서 Dataframe과 Datasets이 통합되었기 때문에 이 두 API의 내용이 많습니다. 두 데이터 API를 통합한 이유는 Spark API를 간결하고 쉽게 하기 위해서 Structured Data 처리 방법을 하나로 제한하였기 때문입니다. 이렇게 하나의 구조화된 처리는 Spark의 높은 추상화를 제공하고 이는 다양한 언어에서 Spar..