목록Computer & Data/Cloud Platform (18)
이야기박스
오늘은 Dataproc에 대해서 간단하게만 정리를 해보도록 하겠습니다. 예전부터 오랫동안 사용해왔었는데, 늘 미루다 이제야 짧게나마 적어두네요. Dataproc이란? GCP에서 제공하는 Managed Hadoop 서비스입니다. Dataproc의 과금 vCPU 수와 실행시간에 따라 과금을 부과합니다. https://cloud.google.com/dataproc/?hl=ko&skip_cache=false#section-10 지원 버전 Hadoop 3.2.2까지 지원이 되고, 기타 하둡 생태계는 3.1.2 버전으로 지원이 되고 있네요. (2022년 05월 기준) https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-release-2.0?hl=..
gsutil로 GCS 경로 이동하면서 생겼던 일들을 짧은 포스팅으로 담아 보려고 합니다. # 목적 gs://storyparks_bucket/dir_a 라는 경로의 폴더를 gs://storyparks_bucket/dir_b 로 옮기자! 즉, 폴더 이름을 변경 혹은 dir_a의 파일들을 dir_b로 옮기는 것이 되겠네요 # Solution 1. mv 명령어 사용 hdfs 명령어에서는 mv에 wildcard(*)를 사용하여 다음과 같이 손쉽게 파일들을 옮길 수 있었습니다. hdfs dfs -mv hdfs://storyparks_datalake/dir_a/* hdfs://storyparks_datalake/dir_b/ 하지만 gsutil에서는 mv 명령어에 wildcard(*) 사용이 불가능 하더라고요! gsu..
# 개요 AWS Glue 작업을 하면서 추가적으로 사용했던 서비스들을 간략하게 정리하기 위한 포스팅입니다. AWS Athena는 S3에 적재된 Parquet를 읽기 위하여 사용하였고 AWS SNS는 Glue에서 ETL 작업 도중, 에러가 발생하면 알람을 받기 위하여 구성하였습니다. # AWS SNS ; Amazon Simple Notification Service AWS의 메시징 서비스 중 하나입니다. 문서를 보니 Scale In/Out도 자동으로 지원하는 듯하네요. 사용방법은 더욱 간단합니다. ## IAM Role 설정 우선 Trust Relationships에 SNS.amazonaws.com 등록이 필요합니다. 이후, AWS SNS 토픽을 생성하려면 다음과 같은 권한들이 필요합니다. SNS Publi..
AWS Glue 이론 포스팅 이후 벌써 반년이 지났네요. 글루가 나온 지 얼마 안 된 상품이어서 그런지 반년 사이에도 많은 업데이트가 있더라고요.. (파이썬 3 지원, 워크 플로우 지원, Continuous logging 지원 등) 워낙 내용이 방대하다보니 모든 내용을 담기가 어렵더라고요. 그러다 보니 제가 겪었던 경험들을 토대로 포스팅을 진행하려고 합니다. 다만, 업데이트가 잦다보니 실제 사용하실 때 현재 포스팅과 실제 내용이 다를 수 있다는 점 참조하시면 좋을 것 같습니다. # Glue Job 동작 ## 스크립트 구성 Glue는 AWS에서 제공하는 스파크 기반의 ETL 서비스입니다. 우리는 Spark 기반의 스크립트를 작성하여 Glue Job을 이용할 수 있습니다. AWS Glue에서는 GlueCon..
# 개요 App Engine은 완전 관리형 서버리스 애플리케이션 플랫폼이라고 합니다. 해당 플랫폼에서 애플리케이션 빌드, 배포하기 때문에 인프라 관리, 배포 구성, 서버 관리 등을 할 필요가 없습니다. 이로부터 개발자의 높은 생산성을 이끌어냅니다. ## 언어 & 도구 자바, PHP, Node.js, Python, C#, .Net, Ruby, Go 등 다양한 언어, 프레임워크를 지원합니다. 또한 IntelliJ, Visual Studio 등 인기 개발 도구를 사용하여 실행도 가능합니다. ## 코드만 추가 인프라 관리 걱정 없이 코드 개발에만 집중할 수 있습니다. 방화벽, IAM, SSL/TLS 인증서 기능을 사용하여 보안을 쉽게 다룰 수 있습니다. ## 비용 사용한 만큼만 지불하면 되는 구조입니다. 트래픽..
App Engine에서 Cloud Pub/Sub으로 메시지 전송이 필요하다 보니 기술조사를 시작하게 되었습니다. 카프카와 유사한 점이 많다고 하는데, 제가 카프카를 잘 몰라서 비교를 하지 못했습니다. 다음에 카프카도 공부하여 포스팅할 수 있도록 하겠습니다. 포스팅 내용은 Google 공식 문서를 참조하였습니다. # 개요 Cloud Pub/Sub을 이용하면 전송자와 수신자를 분리하는 다대다 비동기식 메시지 서비스를 제공하기 때문에 독립적으로 작성한 애플리케이션 간의 안전하고 가용성 높은 통신이 가능합니다. 마이크로서비스를 위한 서비스라 생각하면 될 것 같습니다. 동작 방식은 단순합니다. 게시자(Publisher) 애플리케이션이 메시지를 만들어 주제(Topic)로 전달합니다. 구독자(Subscriber) 애..
App Engine을 사용하면서 로드 밸런서가 어떻게 동작하는지 궁금해지더라구요. 그래서 네트워크 앞단의 Forwarding이 어떤 방식으로 움직이는지 정리해보았습니다. 참조: Using Forwarding Rules | Load Balancing # External Forwarding Rules 외부 포워딩 규칙은 다음과 같은 GCP LB에 적용되고 있습니다. HTTP(S) load balancers SSL proxy load balancers TCP proxy load balancers Network load balancers 제가 App Engine에서 사용한 로드 밸런서는 HTTP(S) Load Balancer이므로 이를 중점으로 확인해보도록 하겠습니다. # HTTPS load balancers ..
업무에 급하게 사용할 일이 생겨서 기술조사를 시작하게 되었습니다. AWS Lambda와 비슷한 솔루션이라고 하네요. 이 솔루션을 선택하게 된 이유는 Serverless이면서 Auto Scale out이 지원되며, 또한 제 프로그램의 Business Logic이 복잡하지 않았기 때문에 선택하게 되었습니다. 2019-05-03 기준, 아직 정식오픈은 되지 않았고 베타 서비스가 진행중입니다. 해당 포스트는 이 날짜 기준의 문서 데이터로 작성되었음을 미리 알려드립니다. 참조 : Google Cloud Function Doc # 개요 ## 특징 클라우드에서 코드를 실행하는 가장 간편한 방법 자동 확장, 우수한 가용성, 내결함성 프로비저닝, 관리, 패치 또는 업데이트가 필요한 서버 없음 코드를 실행하는 만큼만 지불..