본문 바로가기

1차완료/ML

AWS S3, data lake, centralized architecture

반응형

centralized architecture

 

 

data lake

 

 

AWS S3

  • 'bucket'에 object를 저장하게 해줌
  • 'bucket'은 globally unique 한 이름이어야 함
  • 'bucket'의 full path가 key가 된다
  • object의 최대 크기는 5TB
  • Data Lake를 생성하게 된다
  • centralized architecture이다
  • object의 파일 형식은 제한이 없으나 ML에 주로 쓰이는 파일 형식은 csv, json, parquet, orc, avro, protobuf 등 이다

 

AWS S3 partitioning

  • 파티셔닝을 전략적으로 잘 해두면 쿼리 실행 속도를 향상 시킬 수 있다
  • 시간이 관련된다면 bucket 이름을 날짜나 시간 순서로 분류하고
  • 상품 관련이라면 카테고리 별로 파티셔닝을 해두면 좋다
  • AWS Glue를 이용해서 파티셔닝 관련 일을 할 수 있다

 

AWS S3 Storage Classes

  • Amazon S3 Standard - General Purpose
  • Amazon S3 Standard-Infrequent Access(IA)
  • Amazon S3 Intelligent Tiering
    • 디폴트: Frequent Access Tier(automatic)
    • 30일 이상 access 안된 데이터: Infrequent Access tier(automatic)
    • 90일 이상 access 안된 데이터: Archive Instant Access tier(automatic)
    • 90일 ~700일 access 안된 데이터: Archive Access tier(optional)
    • 180일 ~700일 access 안된 데이터: Deep Archive Access tier(optional)
  • Amazon S3 One Zone-Infrequent Access
  • Amazon S3 Glacier Instatnt Retrieval
  • Amazon S3 Glacier Flexible Retrieval
  • Amazon S3 Glacier Deep Archive
  • 위와 같이 존재하며 수동으로 또는 S3 Lifecycle을 이용하여 데이터를 계층 간 이동시킬 수 있다

 

Amazon S3 보안

  • IAM policies
    • IAM에 있는 특정 사용자만 API 호출 가능
  • Bucket policies
  • Object Access Control List (ACL)
  • Bucket Access Control List (ACL)

 

Amazon S3 Object Encryption

  • Server Side Encryption(SSE)
    • SSE-S3(default) - AES256
    • SSE-KMS
    • SSE-C - HTTPs 필수
  • Client Side Encryption
반응형

'1차완료 > ML' 카테고리의 다른 글

AWS Glue, Data Pipeline, Batch, DMS  (0) 2024.01.17
ETL  (0) 2024.01.17
AWS Kinesis  (0) 2024.01.17
aws ml 자격증 시험 등록  (0) 2024.01.17
AWS Certified Machine Learning - Specialty  (0) 2024.01.02