본문 바로가기

1차완료/ML

AWS Glue, Data Pipeline, Batch, DMS

반응형

**내가 이해한대로 아무렇게나 메모...

 

 

Glue:

  • metadata 저장소
  • 자동으로 스키마를 유추하고 버전매김
  • Athena, Redshift Spectrum 등과 연동해서 쓸 수 있음
  • Glue Crawlers가 Glud Data Catalog를 만들고 데이터 스키마와 파티셔닝 관련된 기능

 

Glue ETL:

  • 데이터 추출, 가공, 적재까지 분석 전에 가능
  • python, scala 기반

 

머신러닝을 위한 AWS 데이터 적재:

  • Redshift
  • RDS, Aurora
  • Dynamo DB
  • S3
  • OpenSearch(기존 ElasticSearch)
  • ElastiCache

 

Data Pipeline:

  • S3, RDS, DynamoDB, Readshift, EMR에 데이터 적재
  • on-premises 데이터 받아 올 수 있음
  • 환경 조작에 더 용이, EC2 나 EMR 인스턴스에 접근 가능
  • (glue는 좀 더 ETL 중심)

 

Batch:

  • 도커 이미지로 배치 돌림
  • 다이나믹 프로비저닝

 

DMS:

  • Database Migration Service
  • 빠르고 안전하게 db를 AWS에 이관(이관 중에 이관되는 db는 이용 가능하다)
  • 데이터 복제
  • 데이터 변형 없기에 데이터를 AWS에 이관한 후에 glue로 변형 가능

 

반응형

'1차완료 > ML' 카테고리의 다른 글

EMR Elastic MapReduce  (0) 2024.01.18
Amazon Athena, QuickSight  (0) 2024.01.17
ETL  (0) 2024.01.17
AWS Kinesis  (0) 2024.01.17
aws ml 자격증 시험 등록  (0) 2024.01.17