본문 바로가기

1차완료/ML

Amazon SageMaker

반응형

머신 러닝 일련의 과정을 처리할 수 있게 해줌

 

input, output 둘 다 s3에 가능

 

built-in algorithms

  1. Linear Learner
    • Linear regression
    • numeric prediction, classification prediction 둘 다 가능
    • file, pipe 둘다 가능
    • RecordIO의 경우 float32 만 가능
    • CSV의 경우 첫번째 칼럼이 레이블로 간주
    • 데이터 전처리에 이용됨(입력 데이터가 shuffled 되어야 함)
    • 트레이닝에 이용됨
    • validation에 이용됨 - 가장 최적의 모델이 선택됨
    • 중요 hyperparameters: multiclass weights, learning rate, batch size, L1/L2
    • single CPU, GPU면 충분, multi GPU는 도움되지 않음
  2. XGBoost
    • eXtreme Gradient Boosting
    • 새로운 트리가 기존의 트리의 정확도를 높여줌
    • 빠르고 결과가 좋음
    • classification에도 이용
    • regression에도 이용
    • sageMaker를 위해 만들어진게 아니고 오픈소스임
    • CSV나 libsvm을 입력으로 받음, recordIO-protobuf, Parquet 도 가능
    • 중요 hyperparameters: Subsample, Eta, Gamma, Alpha, Lambda, eval metric, scale pos weight, max depth
  3. Seq2Seq
    • input과 output이 둘 다 sequence of tokens
    • 기계 번역, 글 요약, speech to text 등 사용
    • RecordIO-protobuf의 경우 token은 interger만 가능
    • 중요 hyperparameters: batch 사이즈, optimizer type, learning rate, num layers encoder, num layers decoder
    • GPU만 가능, single machine만 가능(GPU는 여러개 가능)
  4. DeepAR
    • 1차원 시계열 데이터 예측
    • RNN 사용
    • frequency, seasonality 발견
    • JSON 입력(Gzip 또는 Parquet)
    • record 별로 start, target 시간이 있어야함
    • 중요 hyperparameters: context length, epochs, mini batch size, learning rate, num cells
    • CPU, GPU 둘 다 활용 가능
    • single 이거나 multi machine 가능
  5. Blazing Text
    • text classification
    • 웹검색, Information Retrieval 등에 이용
    • supervised
    • word2vec - NLP는 아니지만 NLP에 유용, 개별 단어에만 적용가능하다
    • Cbow (Continuous Bag of Words)
    • Skip-gram
    • Batch skip-gram
    • 중요 hyperparameters:
      • word2vec: mode, learning rate, window size, verctor dim, negative samples
      • text classification: epochs, learning rate, word ngrams, vector dim
  6. Object2Vec
    • 클러스터 시각화, 장르 예측, 유사 상품 추천 등에 사용
    • 데이터는 integer로 tokenize 필요
    • 중요 hyperparameters: dropout, early stopping, epochs, learning rate, batch size, layers, activation function
    • Inference의 경우 INFERENCE PREFERRED MODE를 사용한다
  7. Object Detection
    • 박스 범위 별로 이미지 내의 object를 식별한다
    • single deep neural network
    • MXNet 의 경우 RecordIO 또는 이미지 형식으로 입력
    • 이미지 형식일 경우 JSON 파일로 데이터 annotation 필요]
    • 중요 hyperparameter: mini batch size, learning rate, optimizer
  8. Image Classification
    • 이미지 식별을 하는데 이미지 내 object들의 위치에 대해서는 식별하지는 않음
    • 중요 hyperparameter: batch size, learning rate, optimizer
  9. Semantic Segmentation
    • 픽셀 단위 object classification
    • 자율주행, 의료기기 등에 사용 가능
    • segmentation mask 사용
    • inference 의 경우 jpg 데이터 입력
  10. Random Cut Forest
    • anomaly detection
    • unsupervised
    • RecordIO-protobuf 또는 CSV입력
    • file 또는 pipe 둘다 가능
    • 중요 hyperparameters: num trees, num samples per tree
  11. Neural Topic Model
    • 주제별로 문서 정리
    • TF/IDF를 넘어서 전체적으로 종합분류 가능 
    • unsupervised
    • Neural Variational Inference 알고리즘
    • RecordIO-protobf 또는 CSV 입력
    • 단어별로 interger tokenize 필요
    • file, pipe mode
    • 중요 hyperparameters: lowering mini batch size, learning rate, validation loss 감소, topic 수
  12. LDA
    • Latent Dirichlet Allocation
    • unsupervised
    • RecordIO-protobf 또는 CSV 입력
    • pipe mode의 경우 RecordIC만 가능
    • 중요 hyperparameters: topic 수, alpha0
  13. KNN
    • K Nearest Neighbors
    • classification - 빈도수 기준
    • regression - 평균값 기준
    • RecordIO-protobf 또는 CSV 입력
    • file,  pipe mode
    • 중요 hyperparameter: K!
  14. K-Means
    • unsupervised clustering
    • 데이터를 k개의 그룹으로 분류
    • RecordIO-protobf 또는 CSV 입력
    • file,  pipe mode
    • 중요 hyperparameter: K!, mini batch size, extra center factor
  15. PCA
    • Principal Component Analysis
    • Dimensionality reduction
    • unsupervised
    • RecordIO-protobf 또는 CSV 입력
    • file,  pipe mode
    • 중요 hyperparameter: algorithm mode, subtract mean
  16. Factorization Machines
    • sparse data 처리, 상품 추천 등에 이용
    • supervised
    • classification, regression
    • recordIO-protobut float32 입력으로 받음
    • 중요 hyperparameter: 초기 지정 특징
  17. IP Insights
    • unsupervised
    • ip 주소 사용 패턴 학습
    • csv만 입력 가능
    • 중요 hyperparameter: entity vector 수, vertor dim, epochs, learning rate, batch size
  18. Reinforcement Learning
    • Q-Learning (강화학습의 특정 구현 방법)
    • MDP(Markov decision process)
반응형

'1차완료 > ML' 카테고리의 다른 글

했던거, 남은거  (0) 2024.01.19
ML/AI Services  (0) 2024.01.19
Ensemble Learning  (0) 2024.01.18
measuring models  (0) 2024.01.18
Neural Network Regularization  (0) 2024.01.18