본문 바로가기

1차완료/ML

EMR Elastic MapReduce

반응형

mapreduce:

 

 

EMR (Elastic MapReduce):

  • EC2에서 사용 가능한 Hadoop 프레임워크
  • spark, hbase, presto, flink, hive 등 포함
  • AWS 와 연동 가능한 부분이 꽤 있음

 

EMR 클러스터 구성 (각 node는 ec2인스턴스이다):

  • master node:
    • 클러스터 매니징
    • single EC2 instance
  • core node:
    • HDFS 데이터 호스팅
    • 태스크 실행
    • scale up, down 가능하지만 리스크가 따름
  • task node:
    • 태스크 실행, 데이터는 호스팅 안함
    • 삭제 시 데이터 리스크 없음

 

EMR notebook:

  • Zeppling 과 유사하지만 aws 와 더 연동 가능
  • s3에 백업됨
  • VPC 내에서 호스팅됨
  • AWS콘솔로만 접근 가능함

 

EMR보안:

  • IAM policies
  • Kerberos
  • SSH
  • Apache Ranger로 Hadoop/Hive 데이터 보안

 

EMR 사용:

  • 오래 실행되는 클러스터
  • master 에 직접 연결되는 작업을 실행할 때
  • 순차적인 작업을 콘솔에 실행할때
  • AWS가 자동으로 노드를 스케일링 할 수 있음

 

EMR에 AWS 사용:

  • EC2 인스턴스로 클러스터 노드 구성
  • VPC로 보안
  • S3에 저장
  • CloudWatch로 모니터링
  • IAM 으로 권한관리
  • CloudTrail로 요청 관리
  • Data Pipeline으로 클러스터 스케쥴링

 

EMR 데이터 저장:

  • HDFS(Hadoop Distributed File System)
  • EMRFS(HDFS와 동일하게 S3를 사용) - DynamoDB로 지속성 트래킹을 한다
  • 로컬
  • EBS for HDFS
반응형

'1차완료 > ML' 카테고리의 다른 글

SageMaker Ground Truth  (0) 2024.01.18
Feature Engineering  (0) 2024.01.18
Amazon Athena, QuickSight  (0) 2024.01.17
AWS Glue, Data Pipeline, Batch, DMS  (0) 2024.01.17
ETL  (0) 2024.01.17