목록bigdata (20)
이야기박스
AWS Data Roadshow 2023AWS Data Roadshow 2023pages.awscloud.com SessionsFrom Insights to Action, How to build and maintain a Data Driven OrganizationAmazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New features)Amazon OpenSearch - Use Cases, Security/Observability, Serverless and EnhancemAmazon EMR - Enhancements on Cost/Performance, ServerlessDemystify Streaming on AWS From Insi..
Overview 지난 포스팅에서 Redis가 무엇인지 가볍게 살펴보는 시간을 가졌었습니다. 이번 포스팅에서는 Redis의 HA 구성을 주제로 Sentinel과 Cluster 두 방식을 비교해보도록 하겠습니다. What is Redis; Remote Dictionary Server Airflow의 CeleryExecutor를 사용할 때, Redis가 Queue로써 동작하는 것을 알고 있었지만, 지금까지 이를 제대로 알아보고자 한 적이 없었습니다. 이번 기회에 Redis가 무엇인지, 어떠한 구조로 이루어져 있 box0830.tistory.com Sentinel Sentinel이라는 이름이 처음에는 낯설었지만, 어느 순간부터 zookeeper를 생각하면서 읽다 보니 괜스레 친숙하게 느껴지더라고요. Sentin..
Airflow의 CeleryExecutor를 사용할 때, Redis가 Queue로써 동작하는 것을 알고 있었지만, 지금까지 이를 제대로 알아보고자 한 적이 없었습니다. 이번 기회에 Redis가 무엇인지, 어떠한 구조로 이루어져 있고, 어떤 일들을 할 수 있는지 알아보려고 합니다. Overview Redis is an open source (BSD licensed), in-memory data structure store used as a database, cache, message broker, and streaming engine. Question. NoSQL vs Cache Server vs ETC. Redis를 보고 "NoSQL 저장소이다.", "Cache Server다." 하는 이야기들을 듣다 ..
오늘은 Dataproc에 대해서 간단하게만 정리를 해보도록 하겠습니다. 예전부터 오랫동안 사용해왔었는데, 늘 미루다 이제야 짧게나마 적어두네요. Dataproc이란? GCP에서 제공하는 Managed Hadoop 서비스입니다. Dataproc의 과금 vCPU 수와 실행시간에 따라 과금을 부과합니다. https://cloud.google.com/dataproc/?hl=ko&skip_cache=false#section-10 지원 버전 Hadoop 3.2.2까지 지원이 되고, 기타 하둡 생태계는 3.1.2 버전으로 지원이 되고 있네요. (2022년 05월 기준) https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-release-2.0?hl=..
Elasticsearch에서 대량의 문서를 조회하려고 하였는데, 최대 10,000건 이상의 문서는 조회되지 않는 현상이 발생하였습니다. 오늘은 Elasticsearch의 Java 라이브러리를 이용하여 10,000건 이상의 로그를 조회하는 방법을 포스팅해보려고 합니다. 원인 ES에서의 설정 값 'index.max_result_window'(default 10,000건) 만큼의 결과만 hits으로 노출되고 있었습니다. 해결 방안 1. index.max_result_window 값 증가 2. Scroll API 3. Search After 1번은 근본적인 해결 방안이 아니기 때문에 제외하고, 나머지 2-3번 방법을 위주로 조사해보았습니다. 마침 공식 문서 가보니, Scroll API가 아닌 Search Aft..
최근 몇년 전에 Hadoop3가 출시되면서 Hive 및 Metastore의 IDL에도 변화가 생겼습니다. 기본적으로 과거 서비스에 대한 호환성을 제공해 주었겠지만, 직접 테스트해보며 눈으로 확인해보고자 이번 포스팅을 준비하였습니다. 테스트 개요 테스트는 두 개 버전(2.3.2, 3.1.2)의 Hive Server, Metastore로 진행하였습니다. 화살표처럼 총 4가지의 연결을 시도할 예정입니다. 테스트 명령으로 Create Database / Table을 시도할 예정이고, Show가 되는지 확인, 그리고 테이블에 간단한 Insert를 진행해볼 예정입니다. 결론 예상했던 것 처럼 비교적 최신 버전(3.1.2)의 Metastore에서는 하위 버전의 Hive Server(2.3.2)의 호환이 가능하였지만,..
개요 syslog를 json 형태의 구조화하고 이를 Elastic stack을 활용하여 받아보는 내용을 다루어 보려고 합니다. machine --(rsyslog)--> Nginx --> Logstash ---> Kafka rsyslog는 TCP 포트를 활용하여 받을 예정입니다. Logstash 설치 # get deb pkg wget https://artifacts.elastic.co/downloads/logstash/logstash-7.11.2-amd64.deb # install sudo dpkg -i logstash-7.11.2-amd64.deb - /etc/logstash/logstash.yml queue.type: persisted queue.max_bytes: 20gb path.queue: /da..
이번 포스팅에서는 hive의 메타스토어 2버전 설치를 진행해보려고 합니다. 이전 포스팅인 hive metastore 3버전 설치와 방법은 유사하지만 2 버전에서는 standalone 바이너리 제공을 하지 않기 때문에, 하이브 바이너리를 설치하고 메타스토어를 실행하여야 합니다. Hadoop 시리즈. Hive metastore 3버전 설치 이번 포스팅에서는 hive3 버전의 메타스토어를 단독으로 실행하는 내용을 다루어보았습니다. 하이브를 생성하는 테스트는 다음 포스팅에 진행하고 이번 포스팅은 설치에 집중해보려고 합니다. h box0830.tistory.com Step 1. 준비 # jdk 설치 sudo apt-get install openjdk-8-jdk -y # hive binary 'https://hiv..