반응형
mapreduce:
EMR (Elastic MapReduce):
- EC2에서 사용 가능한 Hadoop 프레임워크
- spark, hbase, presto, flink, hive 등 포함
- AWS 와 연동 가능한 부분이 꽤 있음
EMR 클러스터 구성 (각 node는 ec2인스턴스이다):
- master node:
- 클러스터 매니징
- single EC2 instance
- core node:
- HDFS 데이터 호스팅
- 태스크 실행
- scale up, down 가능하지만 리스크가 따름
- task node:
- 태스크 실행, 데이터는 호스팅 안함
- 삭제 시 데이터 리스크 없음
EMR notebook:
- Zeppling 과 유사하지만 aws 와 더 연동 가능
- s3에 백업됨
- VPC 내에서 호스팅됨
- AWS콘솔로만 접근 가능함
EMR보안:
- IAM policies
- Kerberos
- SSH
- Apache Ranger로 Hadoop/Hive 데이터 보안
EMR 사용:
- 오래 실행되는 클러스터
- master 에 직접 연결되는 작업을 실행할 때
- 순차적인 작업을 콘솔에 실행할때
- AWS가 자동으로 노드를 스케일링 할 수 있음
EMR에 AWS 사용:
- EC2 인스턴스로 클러스터 노드 구성
- VPC로 보안
- S3에 저장
- CloudWatch로 모니터링
- IAM 으로 권한관리
- CloudTrail로 요청 관리
- Data Pipeline으로 클러스터 스케쥴링
EMR 데이터 저장:
- HDFS(Hadoop Distributed File System)
- EMRFS(HDFS와 동일하게 S3를 사용) - DynamoDB로 지속성 트래킹을 한다
- 로컬
- EBS for HDFS
반응형
'1차완료 > ML' 카테고리의 다른 글
SageMaker Ground Truth (0) | 2024.01.18 |
---|---|
Feature Engineering (0) | 2024.01.18 |
Amazon Athena, QuickSight (0) | 2024.01.17 |
AWS Glue, Data Pipeline, Batch, DMS (0) | 2024.01.17 |
ETL (0) | 2024.01.17 |