목록Spark (7)
이야기박스
오늘은 Dataproc에 대해서 간단하게만 정리를 해보도록 하겠습니다. 예전부터 오랫동안 사용해왔었는데, 늘 미루다 이제야 짧게나마 적어두네요. Dataproc이란? GCP에서 제공하는 Managed Hadoop 서비스입니다. Dataproc의 과금 vCPU 수와 실행시간에 따라 과금을 부과합니다. https://cloud.google.com/dataproc/?hl=ko&skip_cache=false#section-10 지원 버전 Hadoop 3.2.2까지 지원이 되고, 기타 하둡 생태계는 3.1.2 버전으로 지원이 되고 있네요. (2022년 05월 기준) https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-release-2.0?hl=..
이번 포스팅에서는 Spark Streaming과 Flink Streaming의 차이점에 대해서 가볍게 살펴보려고 합니다. Streaming이란? 우선 스트리밍에 대해서 간단하게 집고 가려고 합니다. 일반적으로 사용되는 스트리밍은 크게 두 가지로 나눌 수 있습니다. micro-batch streaming vs native streaming 마이크로 배치 방식은 사실은 배치 프로세스입니다. 하지만 배치 간격을 아주 짧게 잡아 실시간처럼 처리하는 것이죠. 그리고 네이티브 스트리밍이 우리가 직관적으로 알고 있는 이벤트 기반 실시간 처리 방법입니다. 비교 스파크 스트리밍은 마이크로 배치 방식을 사용하고 있고 플링크는 네이티브 스트리밍 방식을 사용하고 있습니다. 즉, 두 기술의 큰 차이점들은 각 스트리밍 방식의 차..
Hadoop 시리즈. Yarn 구성해보기 Hadoop 시리즈. Hadoop3 설치하기 - 기본 설치 이전 포스팅에서 하둡, 특히 HDFS란 무엇인가에 대해서 가볍게 알아보았다면, 이번에는 직접 설치해여 몸으로 하둡을 겪어보려고 합니다. Hadoop 시리즈. H box0830.tistory.com 지난번에 설치하였던 Yarn에 이어서 하둡 클러스터에 스파크를 구성하는 포스팅을 다루어보겠습니다. Step 1. Spark Install Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project re..
# 개요 프로그램에서의 laziness란? 게으른 프로그램? 일반적으로 생각되는 부정적인 의미의 게으름과 프로그램에서 말하는 `laziness`는 다릅니다. 정확하게 필요한 순간, "Smart"하게 동작하는 것! 그것을 프로그램에서의 `laziness`라 말합니다. Lazy initialization - Wikipedia In computer programming, lazy initialization is the tactic of delaying the creation of an object, the calculation of a value, or some other expensive process until the first time it is needed. It is a kind of lazy eva..
# 개요 Dataframe에 위대함을 깨우쳐 봅시다! 라는 게 이 챕터의 핵심입니다. 표현이 아주 거창하죠? 표현이야 어쨌든 굉장히 편리한 건 사실입니다. Dataframe은 스키마와 강력한 API를 제공하니까요. 스파크를 잘 사용하려면 논리적 계층(어플리케이션 계층)과 물리적 계층(하드웨어 계층)을 모두 잘 알아야 합니다. 여기서 Dataframe은 스파크의 논리적 계층을 대표한다고 보면 될 것 같습니다. RDD(Resilient Distributed Dataset)는 스파크의 초기 데이터셋입니다. 이 챕터에서 다루는 Dataframe은 RDD를 기반으로 구성되었습니다. 그리고 앞으로 Spark를 사용하면서 Dataframe과 Dataset, RDD를 끊임없이 다루게 됩니다. Dataframe, Dat..
# 개요 [Databricks 공식 문서; A Tale of Three Apache Spark APIs: RDDs vs DataFrames and Datasets]의 해석본입니다. 각종 오역이 난무할 수 있습니다. 위 글은 spark 2.2 이후의 내용을 다루고 있고 RDD, DataFrame, Datasets의 API 관점에서 작성되었습니다. 특히, spark 2.0에서 Dataframe과 Datasets이 통합되었기 때문에 이 두 API의 내용이 많습니다. 두 데이터 API를 통합한 이유는 Spark API를 간결하고 쉽게 하기 위해서 Structured Data 처리 방법을 하나로 제한하였기 때문입니다. 이렇게 하나의 구조화된 처리는 Spark의 높은 추상화를 제공하고 이는 다양한 언어에서 Spar..
# 개요 Apache Spark의 Mental Model을 코드 예제를 통하여 알아보는 챕터입니다. 예제를 통하여 Spark, 나아가서 Big Data 처리에서 Mental Model이 어떤지 확인해 보도록 합시다. ## 참고, 멘탈 모델이란? Mental model - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Explanation of someone's thought process about how something works in the real world A mental model is an explanation of someone's thought process about how somethi..