목록bigdata (20)
이야기박스

하둡 분산형 파일 시스템 (HDFS; Hadoop Distributed File System) HDFS는 대용량 파일을 저장하고 처리하기 위해서 개발된 소프트웨어입니다. 이는 하나의 서버에서만 동작하는 것이 아니라, 다수의 서버에서 클러스터링 되어 운영됩니다. 하둡 클러스터의 기본적인 이해 하둡 클러스터는 Master Node, Slave Node 크게 두 가지로 나누어 볼 수 있습니다. # 마스터 노드(Master Node) 잡 트랙커가 맵리듀스를 사용하여 병렬 처리 네임 노드는 하둡 분산 파일 시스템의 데이터 저장 기능 관리 세컨더리 네임 노드는 네임 노드 백업 용도 # 슬레이브 노드 (Slave/Worker Node) 태스크 트랙커 - 잡 트랙커의 슬레이브 데이터 노드 - 네임 노드의 슬레이브 HD..

오늘은 하둡 에코시스템에 대하여 간단하게 정리하는 글을 갖고, 앞으로 여유가 생길 때마다 하둡 구성원들을 하나씩 정리해서 포스팅하도록 하겠습니다. 하둡이란? 대용량 데이터를 여러 컴퓨터에 분산시켜 처리할 수 있는 자바 기반의 오픈 소스 프레임워크 2006년, 야후의 더그 커팅으로부터 비정형 빅데이터 처리를 위해 구글에서 발표한 GFS와 MapReduce 논문을 참조하여 개발되었으며, 이후 아파치 재단의 오픈 소스로 공개되었습니다. Hadoop Ecosystem ecosystem; 생태계. 상호작용하는 유기체들과 또 그들과 서로 영향을 주고받는 주변의 무생물 환경 하둡이 자바 기반의 분산처리 프레임워크라고 바로 위에서 말씀드렸죠. Hadoop Ecosystem이란 하둡을 구성하고 있는 수많은 하위 프로젝트..

AWS Glue 이론 포스팅 이후 벌써 반년이 지났네요. 글루가 나온 지 얼마 안 된 상품이어서 그런지 반년 사이에도 많은 업데이트가 있더라고요.. (파이썬 3 지원, 워크 플로우 지원, Continuous logging 지원 등) 워낙 내용이 방대하다보니 모든 내용을 담기가 어렵더라고요. 그러다 보니 제가 겪었던 경험들을 토대로 포스팅을 진행하려고 합니다. 다만, 업데이트가 잦다보니 실제 사용하실 때 현재 포스팅과 실제 내용이 다를 수 있다는 점 참조하시면 좋을 것 같습니다. # Glue Job 동작 ## 스크립트 구성 Glue는 AWS에서 제공하는 스파크 기반의 ETL 서비스입니다. 우리는 Spark 기반의 스크립트를 작성하여 Glue Job을 이용할 수 있습니다. AWS Glue에서는 GlueCon..
Pipeline이란?한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조를 말합니다. (wiki)Google Cloud Dataflow == Apache Beam Pipeline 은 서로 동일한 솔루션이라고 하네요. Cloud Dataflow란? 스트리밍 및 배치 처리를 지원하는 오토 스케일링 데이터 파이프라인입니다.장점- 데이터 변경을 각각의 파이프로 구성 가능- auto scailing 지원- 서버리스 서비스- 기타 gcp 서비스들과 손쉬운 연동지원 언어 - Java SDK- Python SDK- Go SDK기본 파이프라인기본적으로 선형 작업이 이루어지지만, 여러 입력 소스, 여러 출력 소스를 통하여 방향성 비순환 그래프를 이룰 수도 있습니다.- Pipeline I/O : ..