목록Hadoop (13)
이야기박스
오늘은 Dataproc에 대해서 간단하게만 정리를 해보도록 하겠습니다. 예전부터 오랫동안 사용해왔었는데, 늘 미루다 이제야 짧게나마 적어두네요. Dataproc이란? GCP에서 제공하는 Managed Hadoop 서비스입니다. Dataproc의 과금 vCPU 수와 실행시간에 따라 과금을 부과합니다. https://cloud.google.com/dataproc/?hl=ko&skip_cache=false#section-10 지원 버전 Hadoop 3.2.2까지 지원이 되고, 기타 하둡 생태계는 3.1.2 버전으로 지원이 되고 있네요. (2022년 05월 기준) https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-release-2.0?hl=..
최근 몇년 전에 Hadoop3가 출시되면서 Hive 및 Metastore의 IDL에도 변화가 생겼습니다. 기본적으로 과거 서비스에 대한 호환성을 제공해 주었겠지만, 직접 테스트해보며 눈으로 확인해보고자 이번 포스팅을 준비하였습니다. 테스트 개요 테스트는 두 개 버전(2.3.2, 3.1.2)의 Hive Server, Metastore로 진행하였습니다. 화살표처럼 총 4가지의 연결을 시도할 예정입니다. 테스트 명령으로 Create Database / Table을 시도할 예정이고, Show가 되는지 확인, 그리고 테이블에 간단한 Insert를 진행해볼 예정입니다. 결론 예상했던 것 처럼 비교적 최신 버전(3.1.2)의 Metastore에서는 하위 버전의 Hive Server(2.3.2)의 호환이 가능하였지만,..
이번 포스팅에서는 hive의 메타스토어 2버전 설치를 진행해보려고 합니다. 이전 포스팅인 hive metastore 3버전 설치와 방법은 유사하지만 2 버전에서는 standalone 바이너리 제공을 하지 않기 때문에, 하이브 바이너리를 설치하고 메타스토어를 실행하여야 합니다. Hadoop 시리즈. Hive metastore 3버전 설치 이번 포스팅에서는 hive3 버전의 메타스토어를 단독으로 실행하는 내용을 다루어보았습니다. 하이브를 생성하는 테스트는 다음 포스팅에 진행하고 이번 포스팅은 설치에 집중해보려고 합니다. h box0830.tistory.com Step 1. 준비 # jdk 설치 sudo apt-get install openjdk-8-jdk -y # hive binary 'https://hiv..
이번 포스팅에서는 hive metastore 3 버전을 단독으로 실행하는 내용을 다루어보았습니다. 하이브를 생성하는 테스트는 다음 포스팅에 진행하고 이번 포스팅은 설치에 집중해보려고 합니다. hive metastore 2버전의 설치는 아래 포스팅을 참고해주시기 바랍니다. https://box0830.tistory.com/366 Hadoop 시리즈. Hive metastore 2버전 설치 이번 포스팅에서는 hive의 메타스토어 2버전 설치를 진행해보려고 합니다. 이전 포스팅인 hive metastore 3버전 설치와 방법은 유사하지만 2 버전에서는 standalone 바이너리 제공을 하지 않기 때문에, box0830.tistory.com Step 1. 준비 # jdk 설치 sudo apt-get insta..
Hadoop 시리즈. Yarn 구성해보기 Hadoop 시리즈. Hadoop3 설치하기 - 기본 설치 이전 포스팅에서 하둡, 특히 HDFS란 무엇인가에 대해서 가볍게 알아보았다면, 이번에는 직접 설치해여 몸으로 하둡을 겪어보려고 합니다. Hadoop 시리즈. H box0830.tistory.com 지난번에 설치하였던 Yarn에 이어서 하둡 클러스터에 스파크를 구성하는 포스팅을 다루어보겠습니다. Step 1. Spark Install Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project re..
Hadoop 시리즈. Hadoop3 설치하기 - 기본 설치 이전 포스팅에서 하둡, 특히 HDFS란 무엇인가에 대해서 가볍게 알아보았다면, 이번에는 직접 설치해여 몸으로 하둡을 겪어보려고 합니다. Hadoop 시리즈. HDFS 맛보기 하둡 분산형 파일 시스템 (HDFS; box0830.tistory.com 위 포스팅에 이어서 Yarn을 설치해보도록 하겠습니다. 노드 역할 Yarn story-hadoop-master01 Active Namenode Resource Manager story-hadoop-master02 Standby Namenode Resource Manager (history, timeline) story-hadoop-master03 Observer Namenode story-hadoop-w..
네임노드의 힙 메모리 용량은 어떤 기준으로 산정하면 될까? 클러스터 데이터의 전체 용량? 혹은 파일 개수? 저 같은 하둡 초보들에겐 어려운 질문인 것 같습니다. 결론부터 빠르게 말하자면 파일 갯수를 근거로 힙 메모리를 산정하면 된다고 합니다. Active Namenode는 블록의 위치 정보들을 관리하고 이를 토대로 읽기/쓰기 요청을 처리합니다. 파일 갯수가 많아진다면 블록의 개수도 많아질 테고, 결국 필요 메모리 크기가 늘어나게 되는 것 같습니다. 아래는 클라우데라에서 제공하는 파일 개수별 메모리 권장 사항입니다. Number of Files , in Millions Total Java Heap (Xmx and Xms) Young Generation Size (-XX:NewSize -XX:MaxNewSi..
Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameNode and any back-up NameNodes) 50070 HTTP Web UI to look at current status of HDFS, explore file system Yes (Typically admins, Dev/Support teams, as well as extra-cluster users who require webhdfs/hftp access, for example, to use distcp) dfs.http.address 50470 ..