이번 챕터에서는 RDB에서 데이터를 추출하는 내용을 다룸 크게 두 가지 방법 1. 전체 테이블 추출 2. DB에서 특정 동작 후, 추출 (filtering, joining, aggregating 등) # 커넥션 JDBC 드라이버 이용 위 예제처럼 Spark가 DB에 직접 접근하는 것이 아닌 JDBC 드라이버를 통해서 접근 그러므로 JDBC 드라이버의 특징이 고대로 나타남 참고. CHANGE DATA CAPTURE Change data capture (CDC) is a set of software design patterns used to determine (and track) the data that has changed so that action can be taken using the changed ..
This chapter covers Common behaviors of parsers Ingesting from CSV, JSON, XML, and text files Understanding the difference between one-line and multiline JSON records Understanding the need for big data-specific file formats
이번 챕터는 [Chapter 5. Building a simple app for deployment]의 지식이 필요합니다. Deployment가 책의 앞부분에 나오는 이유는 요즘 흐름인 CI/CD에 맞추었기 때문입니다. 3가지 모드만 기억하면 됨 Local mode, which you are already familiar with through the examples in previous chapters Cluster mode (more than one computer or node) Interactive mode (through a shell) 위 각 모드에 대해서 인프라 아키텍쳐도 함께 알아야 함 Spark Component가 어떻게 구성되는지 확인 # Overview Driver는 Link Orig..
# Proxy Protocol이란? https://www.haproxy.org/download/1.8/doc/proxy-protocol.txt # nginx, accepting the proxy protocol https://docs.nginx.com/nginx/admin-guide/load-balancer/using-proxy-protocol/ NGINX Docs | Accepting the PROXY Protocol Preserve client information provided by the PROXY protocol, for advanced load balancing of HTTPS, HTTP/2, TCP, and WebSocket traffic. docs.nginx.com 참고 https://k..
