목록분류 전체보기 (409)
이야기박스
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/yeamt/btqGmqDZv6d/iVoCe0BVhGk06yP72GA1E0/img.png)
이번 챕터에서는 RDB에서 데이터를 추출하는 내용을 다룸 크게 두 가지 방법 1. 전체 테이블 추출 2. DB에서 특정 동작 후, 추출 (filtering, joining, aggregating 등) # 커넥션 JDBC 드라이버 이용 위 예제처럼 Spark가 DB에 직접 접근하는 것이 아닌 JDBC 드라이버를 통해서 접근 그러므로 JDBC 드라이버의 특징이 고대로 나타남 참고. CHANGE DATA CAPTURE Change data capture (CDC) is a set of software design patterns used to determine (and track) the data that has changed so that action can be taken using the changed ..
This chapter covers Common behaviors of parsers Ingesting from CSV, JSON, XML, and text files Understanding the difference between one-line and multiline JSON records Understanding the need for big data-specific file formats
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bw8CZt/btqF62LqunN/LkJGWOR2ydnKlRgveUp02K/img.png)
이번 챕터는 [Chapter 5. Building a simple app for deployment]의 지식이 필요합니다. Deployment가 책의 앞부분에 나오는 이유는 요즘 흐름인 CI/CD에 맞추었기 때문입니다. 3가지 모드만 기억하면 됨 Local mode, which you are already familiar with through the examples in previous chapters Cluster mode (more than one computer or node) Interactive mode (through a shell) 위 각 모드에 대해서 인프라 아키텍쳐도 함께 알아야 함 Spark Component가 어떻게 구성되는지 확인 # Overview Driver는 Link Orig..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bbWlX5/btqFHcanZnz/JuNx5gI82S0rVeHdlKTy7k/img.png)
# 개요 Apache Spark의 Mental Model을 코드 예제를 통하여 알아보는 챕터입니다. 예제를 통하여 Spark, 나아가서 Big Data 처리에서 Mental Model이 어떤지 확인해 보도록 합시다. ## 참고, 멘탈 모델이란? Mental model - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Explanation of someone's thought process about how something works in the real world A mental model is an explanation of someone's thought process about how somethi..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dxRvkw/btqFJqE2BkY/S2TbNhwPEElp5l3C2WjR21/img.png)
spark 3.0을 다루는 Spark in Action 2판이 출판되어 스터디를 진행하게 되었습니다. 책은 Manning에서 구매하여 e-book으로 보게 되었네요. https://www.manning.com/books/spark-in-action-second-edition Spark in Action, Second Edition The Spark distributed data processing platform provides an easy-to-implement tool for ingesting, streaming, and processing data from any source. In Spark in Action, Second Edition, you’ll learn to take advantage ..
# Proxy Protocol이란? https://www.haproxy.org/download/1.8/doc/proxy-protocol.txt # nginx, accepting the proxy protocol https://docs.nginx.com/nginx/admin-guide/load-balancer/using-proxy-protocol/ NGINX Docs | Accepting the PROXY Protocol Preserve client information provided by the PROXY protocol, for advanced load balancing of HTTPS, HTTP/2, TCP, and WebSocket traffic. docs.nginx.com 참고 https://k..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/YlOGF/btqE5QjzY36/xuBzFOd0fZLaqJEl8kQMT0/img.png)
# 개요 지난번 포스팅처럼 Guava 라이브러리 이슈가 발생하여 기록을 남깁니다. 이번에는 Exclude로 충돌되는 패키지를 제외시키는 방법이 아닌, re-packaging 방식을 사용하는 포스팅을 구성하였습니다. Maven: NoSuchMethodError. Guava 라이브러리 충돌 # 개요 maven을 통한 개발을 진행하는 도중 아래와 같은 에러로그가 발생하였습니다. java.lang.NoSuchMethodError: com.google.common.io.ByteStreams.exhaust(Ljava/io/InputStream;)J 알아보니 위 패키지는 gu.. box0830.tistory.com # 에러 로그 Exception in thread "main" java.lang.NoSuchMethod..