목록Computer & Data/Big Data (43)
이야기박스
This chapter covers Common behaviors of parsers Ingesting from CSV, JSON, XML, and text files Understanding the difference between one-line and multiline JSON records Understanding the need for big data-specific file formats
이번 챕터는 [Chapter 5. Building a simple app for deployment]의 지식이 필요합니다. Deployment가 책의 앞부분에 나오는 이유는 요즘 흐름인 CI/CD에 맞추었기 때문입니다. 3가지 모드만 기억하면 됨 Local mode, which you are already familiar with through the examples in previous chapters Cluster mode (more than one computer or node) Interactive mode (through a shell) 위 각 모드에 대해서 인프라 아키텍쳐도 함께 알아야 함 Spark Component가 어떻게 구성되는지 확인 # Overview Driver는 Link Orig..
# 개요 Apache Spark의 Mental Model을 코드 예제를 통하여 알아보는 챕터입니다. 예제를 통하여 Spark, 나아가서 Big Data 처리에서 Mental Model이 어떤지 확인해 보도록 합시다. ## 참고, 멘탈 모델이란? Mental model - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Explanation of someone's thought process about how something works in the real world A mental model is an explanation of someone's thought process about how somethi..
spark 3.0을 다루는 Spark in Action 2판이 출판되어 스터디를 진행하게 되었습니다. 책은 Manning에서 구매하여 e-book으로 보게 되었네요. https://www.manning.com/books/spark-in-action-second-edition Spark in Action, Second Edition The Spark distributed data processing platform provides an easy-to-implement tool for ingesting, streaming, and processing data from any source. In Spark in Action, Second Edition, you’ll learn to take advantage ..
Flume 실행 과정에서 다음과 같은 Warn 로그가 발생하여서 기록을 남겨둡니다. No configuration found for this host:a1 # 원인 문제의 원인은 Flume은 아래와 같은 커맨드를 통하여 실행하게 되는데, 실행 시 지정하는 agent와 configuration에 설정된 agent 이름이 다른 경우 위와 같은 Warn 메시지가 출력 되게 됩니다. /usr/lib/flume/bin/flume-ng a1 -n a1 # config file agent.sources=exec-source agent.sinks=hdfs-sink agent.channels=ch1 # 조치 위 같은 케이스에서 네이밍 규칙으로 Agent 이름을 맞추어 주면 해결됩니다. /usr/lib/flume/bin/..
에러 로그 Expiring 1 record(s) for {topic-partition}: 5005 ms has passed since b atch creation plus linger time Linger time이란? # linger.ms The producer groups together any records that arrive in between request transmissions into a single batched request. Normally this occurs only under load when records arrive faster than they can be sent out. However in some circumstances the client may want to re..
https://www.theteams.kr/teams/865/post/64657 Kubernetes을 활용한 분산 부하 테스팅 by 데일리호텔 Kubernetes을 활용한 분산 부하 테스팅동명의 글이 Google Cloud Platform에도 있으니 여기서는 여태까지 한 삽질과 교훈에 집중한다.첫 시도 ngrinder처음에는 ngrinder로 부하 테스트 환경을 구축하려 했다. 몇 달 전에 부하 테스트를 진행할 때 잠시 쓴 적이 있었기 때문에 굳이 다른 솔루션을 찾을 이유가 없었다. ... www.theteams.kr