반응형
apache kafka 같은 실시간 데이터 분석처리 시스템
실시간 빅데이터 처리에 용이
producer -> Kinesis Streams -> Kinesis Analytics -> Kinesis Firehose -> 저장소
<streams>
stream은 ordered shards/partitions으로 되며 실시간임
24시간 데이터 보유 및 1년까지도 가능
한번 kinesis 에 데이터가 들어가면 삭제할 수 없음
provisioned mode:
- provision 될 shard 수를 정하고 수동으로 또는 API로 scale한다
- 각 shard는 1MB/s in(또는 1000 records per second)
- 각 shard는 2MB/s out
- 시간 당 provision된 shard 만큼 지불한다
on-demand mode:
- 용량 조절이 필요없다
- 디폴트로 4MB/s 또는 4000 records per second 만큼 provision됨
- scale은 지난 30일간 추이에 따라 자동으로 적용된다
- 시간당 stream, in/out GB 당 지불한다
한계:
producer: shard 당 1MB/s 또는 1000messages/s write 가능
consumer: shard 당 2MB/s read 가능, 초당 5회 API호출 가능
<firehose>
AWS Lambda로 데이터 형식 변환 가능(ex CSV => JSON)
실시간에 가까움
Redshift, S3, ElasticSearch, Splunk 등 저장소에 데이터 저장 가능
데이터 저장 대상이 S3인 경우 압축 지원됨
firehose를 지나는 데이터 양 만큼 지불하게 됨
scaling 자동
반응형
'1차완료 > ML' 카테고리의 다른 글
AWS Glue, Data Pipeline, Batch, DMS (0) | 2024.01.17 |
---|---|
ETL (0) | 2024.01.17 |
aws ml 자격증 시험 등록 (0) | 2024.01.17 |
AWS S3, data lake, centralized architecture (1) | 2024.01.05 |
AWS Certified Machine Learning - Specialty (0) | 2024.01.02 |