반응형
centralized architecture
data lake
AWS S3
- 'bucket'에 object를 저장하게 해줌
- 'bucket'은 globally unique 한 이름이어야 함
- 'bucket'의 full path가 key가 된다
- object의 최대 크기는 5TB
- Data Lake를 생성하게 된다
- centralized architecture이다
- object의 파일 형식은 제한이 없으나 ML에 주로 쓰이는 파일 형식은 csv, json, parquet, orc, avro, protobuf 등 이다
AWS S3 partitioning
- 파티셔닝을 전략적으로 잘 해두면 쿼리 실행 속도를 향상 시킬 수 있다
- 시간이 관련된다면 bucket 이름을 날짜나 시간 순서로 분류하고
- 상품 관련이라면 카테고리 별로 파티셔닝을 해두면 좋다
- AWS Glue를 이용해서 파티셔닝 관련 일을 할 수 있다
AWS S3 Storage Classes
- Amazon S3 Standard - General Purpose
- Amazon S3 Standard-Infrequent Access(IA)
- Amazon S3 Intelligent Tiering
- 디폴트: Frequent Access Tier(automatic)
- 30일 이상 access 안된 데이터: Infrequent Access tier(automatic)
- 90일 이상 access 안된 데이터: Archive Instant Access tier(automatic)
- 90일 ~700일 access 안된 데이터: Archive Access tier(optional)
- 180일 ~700일 access 안된 데이터: Deep Archive Access tier(optional)
- Amazon S3 One Zone-Infrequent Access
- Amazon S3 Glacier Instatnt Retrieval
- Amazon S3 Glacier Flexible Retrieval
- Amazon S3 Glacier Deep Archive
- 위와 같이 존재하며 수동으로 또는 S3 Lifecycle을 이용하여 데이터를 계층 간 이동시킬 수 있다
Amazon S3 보안
- IAM policies
- IAM에 있는 특정 사용자만 API 호출 가능
- Bucket policies
- Object Access Control List (ACL)
- Bucket Access Control List (ACL)
Amazon S3 Object Encryption
- Server Side Encryption(SSE)
- SSE-S3(default) - AES256
- SSE-KMS
- SSE-C - HTTPs 필수
- Client Side Encryption
반응형
'1차완료 > ML' 카테고리의 다른 글
AWS Glue, Data Pipeline, Batch, DMS (0) | 2024.01.17 |
---|---|
ETL (0) | 2024.01.17 |
AWS Kinesis (0) | 2024.01.17 |
aws ml 자격증 시험 등록 (0) | 2024.01.17 |
AWS Certified Machine Learning - Specialty (0) | 2024.01.02 |