이야기박스
AWS Roadshow 2023 - 2일차 본문
Sessions
- From Insights to Action, How to build and maintain a Data Driven Organization
- Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New features)
- Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhancem
- Amazon EMR - Enhancements on Cost/Performance, Serverless
- Demystify Streaming on AWS
From Insights to Action, How to build and maintain a Data Driven Organization
발표자: Mary Law, Head of Korea Data Solution Architect, WWSO, AWS
# 어떻게 제공하여야 하는가?
- integration data (silo) + Fully managed
- Convinient & Best experience
# Data Driven?
- 데이터를 찾거나 접근하기 위해 소비되는 시간들을 줄여주자 - 편리하게 만들어주자
- 적절한 피드백을 제공하자
- 결정에 대해서.. 중앙 집중화 ㄴㄴ / 작은 문제로 풀기 -> Not top to bottom, bottom to top
# Modern Data Strategy
# AWS Products
- Storages: S3 / Redshift / Aurora DB / MSK & Kinesis
- Analytics: Redshift / EMR
- Science: Sagemaker
# Data mesh architecture
데이터 관리 패러다임의 일종
- Decentralized
- light-weight
- federated goverance
Data governance 공유를 위한, 위 특성을 가지는 domain-oriented 데이터 시스템
# Sagemaker
Key concept. Low code No Code
- 대부분의 작업을 UI 콘솔에서 할 수 있음.
- 분석과 ML 예측을 코드 개발 없이 콘솔에서 할 수 있음
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New features)
발표자: 김도균, ACE Specialist, WWSO, AWS
# RA3 vs Serverless
## Serverless
- 사용시간 만큼 과금 (쿼리가 아님)
## RA3
- Node / Storage 분리
- 노드당 128T (확장 가능)
# 이후 Serverless 실습...
이하 생략..
Enabling Agility with Data Governance
발표자: 김성연, Analytics Specialist, WWSO, AWS
# 정의
비즈니스 가치 창출 목적 -> 데이터 풒ㅁ질 / 처리 보장을 위한 정책 / 프로세스 / 시스템 집합
# AWS에서의 거버넌스
## 수집 파이프라인 자동화
정책이 변경되거나, 요구사항이 변경되면 파이프라인에도 이 내용이 반영되어야 함. 수동으로 처리하려고 하면, 번거로움
자동화 필수
- e.g. appFlow, Glue ETL
## 카탈로그
데이터 정리
- e.g. S3 Crawler, Glue Catalog
## 권한 관리
- e.g. LakeFormation
# DataZone
일종의 거버넌스 데이터 포탈
## 전사 범위 비즈니스 카탈로그
컨텍스트와 함께 데이터 시각화
## 셀프 서비스 포탈
별도 웹페이지 구성 가능 (SSO 기반 로그인도 가능)
## 분석에 대한 간편화된 접근
프로젝트 그룹 단위로 작업할 수 있음. 원하는 도구로 서비스간 분석 가능.
## 거버넌스하의 데이터 공유
자동화된 워크플로우 + 거버넌스
# 조직 - 도메인 단위 관리
- (조직~도메인)에서 데이터 소스/카탈로그 직접 관리 -> 게시를 통하여 타 조직에게 제공 가능 (publish / subscribe)
- IAM Role / LakeFormation을 통한 접근 제어
# Roadmap
UI에서 데이터 소스/카탈로그 관리를 할 수 있도록 지원 예정 (언제?)
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhancements
발표자: 김성일, Sr Analytics Specialist, WWSO, AWS
# Opensearch?
Elasticsearch 라이센스가 오픈소스에서 유료화로 전환됨에 따라 AWS도 Opensearch로 갈아탐
# 시연
ES + Kibana 시연..
# New Concept
- Collections: 인덱스 집합
- OCU; OpenSearch Compute Units: 이거 단위로 비용
# Architecture
- Indexing / Search 파이프라인 분리
- Computing / Storage 분리
Amazon EMR - Enhancements on Cost/Performance, Serverless
발표자: 김기영, Sr Analytics Specialist, WWSO, AWS
# multi az
하둡의 경우, 싱글 az를 가고 있음. (성능)
EMR Serverless의 경우는 multi az가 지원됨. 예를 들어.. a zone에서 동작하다가 다운되면, b zone에서 자동으로 다시 실행됨
# Job 단위의 IAM Role 관리
모든 Job에 IAM Role 지정하여 작업 제출
# Serverless applications (oss frameworks)
현재는 spark / hive만 제공, 조만간 presto 제공 예정
# Wam pool
Worker의 사전 초기화 가능
# 시연
생략
# Question
- job별로 subnet을 따로 지정할 수 있을까요?
-> application 단위로 지정 가능 (application 클러스터가 생성될 때, 특정 subnet으로 뜨는 것. 그래서 app단위로 지정)
- log. stdout / stderr만 저장되는지? 프로비저닝 EMR에서는 container 로그 등도 저장되서 비용이 부담되었었습니다.
-> O
- 작업 실행중에도 UI 통해서 모니터링 가능한거죠?
-> O
- user zone의 쿼터를 사용하는건 아닌거죠?
-> User quota 사용
cpu 1개당 메모리 제한이 있음. ( 확인이 필요하지만, 400 core - 1024 GiB -> 더 늘어났을 수도 있음 16 core - 120 GiB 문서 확인 필요)
Demystify Streaming on AWS
발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS
위 세션 질문하느라 별로 못들음
'Hobby > 각종 후기' 카테고리의 다른 글
감성 있는 TV 조명, nanoleaf 4d 사용해보자 (0) | 2024.02.16 |
---|---|
포시즌스 2023 크리스마스 케이크 후기 (2) | 2023.12.13 |
뮤지컬 시카고 25주년, 2023 내한 후기 (1) | 2023.06.05 |
손열음 모차르트 소나타 리사이틀 (0) | 2023.05.21 |
브리엔츠 풀빌라 스위트 후기 (3) | 2023.05.11 |