이야기박스

AWS Roadshow 2023 - 2일차 본문

Hobby/각종 후기

AWS Roadshow 2023 - 2일차

박스님 2023. 6. 21. 09:59
반응형

AWS Data Roadshow 2023

AWS Data Roadshow 2023

pages.awscloud.com

 

Sessions

  • From Insights to Action, How to build and maintain a Data Driven Organization
  • Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New features)
  • Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhancem
  • Amazon EMR - Enhancements on Cost/Performance, Serverless
  • Demystify Streaming on AWS

 

From Insights to Action, How to build and maintain a Data Driven Organization

발표자: Mary Law, Head of Korea Data Solution Architect, WWSO, AWS

# 어떻게 제공하여야 하는가?
- integration data (silo) + Fully managed 
- Convinient & Best experience
 
# Data Driven?
- 데이터를 찾거나 접근하기 위해 소비되는 시간들을 줄여주자 - 편리하게 만들어주자
- 적절한 피드백을 제공하자
- 결정에 대해서.. 중앙 집중화 ㄴㄴ / 작은 문제로 풀기 -> Not top to bottom, bottom to top
 
# Modern Data Strategy

 
# AWS Products
- Storages: S3 / Redshift / Aurora DB / MSK & Kinesis 
- Analytics: Redshift / EMR
- Science: Sagemaker
 
# Data mesh architecture
데이터 관리 패러다임의 일종
- Decentralized
- light-weight
- federated goverance
Data governance 공유를 위한, 위 특성을 가지는 domain-oriented 데이터 시스템
 
# Sagemaker
Key concept. Low code No Code
- 대부분의 작업을 UI 콘솔에서 할 수 있음.
- 분석과 ML 예측을 코드 개발 없이 콘솔에서 할 수 있음
 

Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New features)

발표자: 김도균, ACE Specialist, WWSO, AWS
 
# RA3 vs Serverless
## Serverless
- 사용시간 만큼 과금 (쿼리가 아님)
 
## RA3
- Node / Storage 분리
- 노드당 128T (확장 가능)
 
# 이후 Serverless 실습...
이하 생략..
 

Enabling Agility with Data Governance

발표자: 김성연, Analytics Specialist, WWSO, AWS
 
# 정의
비즈니스 가치 창출 목적 -> 데이터 풒ㅁ질 / 처리 보장을 위한 정책 / 프로세스 / 시스템 집합
 
# AWS에서의 거버넌스
## 수집 파이프라인 자동화
정책이 변경되거나, 요구사항이 변경되면 파이프라인에도 이 내용이 반영되어야 함. 수동으로 처리하려고 하면, 번거로움
자동화 필수
- e.g. appFlow, Glue ETL
 
## 카탈로그
데이터 정리
- e.g. S3 Crawler, Glue Catalog
 
## 권한 관리
- e.g. LakeFormation
 
# DataZone
일종의 거버넌스 데이터 포탈
 
## 전사 범위 비즈니스 카탈로그
컨텍스트와 함께 데이터 시각화
 
## 셀프 서비스 포탈
별도 웹페이지 구성 가능 (SSO 기반 로그인도 가능)
 
## 분석에 대한 간편화된 접근
프로젝트 그룹 단위로 작업할 수 있음. 원하는 도구로 서비스간 분석 가능.
 
## 거버넌스하의 데이터 공유
자동화된 워크플로우 + 거버넌스
 
# 조직 - 도메인 단위 관리

- (조직~도메인)에서 데이터 소스/카탈로그 직접 관리 -> 게시를 통하여 타 조직에게 제공 가능 (publish / subscribe)
- IAM Role / LakeFormation을 통한 접근 제어
 
# Roadmap
UI에서 데이터 소스/카탈로그 관리를 할 수 있도록 지원 예정 (언제?)
 

Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhancements

발표자: 김성일, Sr Analytics Specialist, WWSO, AWS
 
# Opensearch?
Elasticsearch 라이센스가 오픈소스에서 유료화로 전환됨에 따라 AWS도 Opensearch로 갈아탐
 
# 시연
ES + Kibana 시연..
 
# New Concept
- Collections: 인덱스 집합
- OCU; OpenSearch Compute Units: 이거 단위로 비용
 
# Architecture
- Indexing / Search 파이프라인 분리
- Computing / Storage 분리
 

Amazon EMR - Enhancements on Cost/Performance, Serverless

발표자: 김기영, Sr Analytics Specialist, WWSO, AWS
 
# multi az
하둡의 경우, 싱글 az를 가고 있음. (성능)
EMR Serverless의 경우는 multi az가 지원됨. 예를 들어.. a zone에서 동작하다가 다운되면, b zone에서 자동으로 다시 실행됨
 
# Job 단위의 IAM Role 관리
모든 Job에 IAM Role 지정하여 작업 제출
 
# Serverless applications (oss frameworks)
현재는 spark / hive만 제공, 조만간 presto 제공 예정
 
# Wam pool
Worker의 사전 초기화 가능
 
# 시연
생략
 
# Question
- job별로 subnet을 따로 지정할 수 있을까요?
-> application 단위로 지정 가능 (application 클러스터가 생성될 때, 특정 subnet으로 뜨는 것. 그래서 app단위로 지정)
 
- log. stdout / stderr만 저장되는지? 프로비저닝 EMR에서는 container 로그 등도 저장되서 비용이 부담되었었습니다.
-> O
 
- 작업 실행중에도 UI 통해서 모니터링 가능한거죠?
-> O
 
- user zone의 쿼터를 사용하는건 아닌거죠? 
-> User quota 사용
cpu 1개당 메모리 제한이 있음. ( 확인이 필요하지만, 400 core - 1024 GiB  -> 더 늘어났을 수도 있음 16 core - 120 GiB 문서 확인 필요)
 

Demystify Streaming on AWS

발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS

위 세션 질문하느라 별로 못들음

 

반응형