목록Computer & Data/Cloud Platform (18)
이야기박스
GCP 교육 1일차
2019-02-19 [개요] Data Distribute 제품 --> Dataproc Serverless BigQuery DataFlow ML - Tensorflow [메인] unstructured data (google define) 제품1. Dataproc sharding --> 데이터를 나누는 작업 map --> 데이터를 넣는 작업 shuffling --> 집계된 데이터를 정리하는 작업 reduce --> 마지막으로 합침 Dataproc이란? GCP 존
Computer & Data/Cloud Platform
2019. 2. 19. 11:06
AWS Glue - 이론
AWS Data Pipeline 포스팅의 첫 시작을 AWS Glue로 하려고 합니다.이번 포스팅에서는 제가 Glue를 사용하며 공부한 내용을 정리하였고 다음 포스팅에서는 Glue의 사용 예제를 정리하여 올리겠습니다.AWS Glue란?AWS Glue는 Cloud Spark ETL Service로서 몇가지 특징을 가지고 있습니다. [ 특징 ] - Serverless 기반 - crawler 통한 자동 스키마 검색 - 통합 데이터 카탈로그 제공 - 개발용 엔드 포인트 및 노트북 제공 - Scala, Python 언어 및 Apache Spark용 ETL Job 코드 생성 및 스케줄 실행 Serverless 기반이기 때문에, Job을 돌리기 위해서 Cold Start 단계가 존재합니다. 이 시간에는 과금이 되지 않..
Computer & Data/Cloud Platform
2019. 1. 29. 14:23