반응형
머신 러닝 일련의 과정을 처리할 수 있게 해줌
input, output 둘 다 s3에 가능
built-in algorithms
- Linear Learner
- Linear regression
- numeric prediction, classification prediction 둘 다 가능
- file, pipe 둘다 가능
- RecordIO의 경우 float32 만 가능
- CSV의 경우 첫번째 칼럼이 레이블로 간주
- 데이터 전처리에 이용됨(입력 데이터가 shuffled 되어야 함)
- 트레이닝에 이용됨
- validation에 이용됨 - 가장 최적의 모델이 선택됨
- 중요 hyperparameters: multiclass weights, learning rate, batch size, L1/L2
- single CPU, GPU면 충분, multi GPU는 도움되지 않음
- XGBoost
- eXtreme Gradient Boosting
- 새로운 트리가 기존의 트리의 정확도를 높여줌
- 빠르고 결과가 좋음
- classification에도 이용
- regression에도 이용
- sageMaker를 위해 만들어진게 아니고 오픈소스임
- CSV나 libsvm을 입력으로 받음, recordIO-protobuf, Parquet 도 가능
- 중요 hyperparameters: Subsample, Eta, Gamma, Alpha, Lambda, eval metric, scale pos weight, max depth
- Seq2Seq
- input과 output이 둘 다 sequence of tokens
- 기계 번역, 글 요약, speech to text 등 사용
- RecordIO-protobuf의 경우 token은 interger만 가능
- 중요 hyperparameters: batch 사이즈, optimizer type, learning rate, num layers encoder, num layers decoder
- GPU만 가능, single machine만 가능(GPU는 여러개 가능)
- DeepAR
- 1차원 시계열 데이터 예측
- RNN 사용
- frequency, seasonality 발견
- JSON 입력(Gzip 또는 Parquet)
- record 별로 start, target 시간이 있어야함
- 중요 hyperparameters: context length, epochs, mini batch size, learning rate, num cells
- CPU, GPU 둘 다 활용 가능
- single 이거나 multi machine 가능
- Blazing Text
- text classification
- 웹검색, Information Retrieval 등에 이용
- supervised
- word2vec - NLP는 아니지만 NLP에 유용, 개별 단어에만 적용가능하다
- Cbow (Continuous Bag of Words)
- Skip-gram
- Batch skip-gram
- 중요 hyperparameters:
- word2vec: mode, learning rate, window size, verctor dim, negative samples
- text classification: epochs, learning rate, word ngrams, vector dim
- Object2Vec
- 클러스터 시각화, 장르 예측, 유사 상품 추천 등에 사용
- 데이터는 integer로 tokenize 필요
- 중요 hyperparameters: dropout, early stopping, epochs, learning rate, batch size, layers, activation function
- Inference의 경우 INFERENCE PREFERRED MODE를 사용한다
- Object Detection
- 박스 범위 별로 이미지 내의 object를 식별한다
- single deep neural network
- MXNet 의 경우 RecordIO 또는 이미지 형식으로 입력
- 이미지 형식일 경우 JSON 파일로 데이터 annotation 필요]
- 중요 hyperparameter: mini batch size, learning rate, optimizer
- Image Classification
- 이미지 식별을 하는데 이미지 내 object들의 위치에 대해서는 식별하지는 않음
- 중요 hyperparameter: batch size, learning rate, optimizer
- Semantic Segmentation
- 픽셀 단위 object classification
- 자율주행, 의료기기 등에 사용 가능
- segmentation mask 사용
- inference 의 경우 jpg 데이터 입력
- Random Cut Forest
- anomaly detection
- unsupervised
- RecordIO-protobuf 또는 CSV입력
- file 또는 pipe 둘다 가능
- 중요 hyperparameters: num trees, num samples per tree
- Neural Topic Model
- 주제별로 문서 정리
- TF/IDF를 넘어서 전체적으로 종합분류 가능
- unsupervised
- Neural Variational Inference 알고리즘
- RecordIO-protobf 또는 CSV 입력
- 단어별로 interger tokenize 필요
- file, pipe mode
- 중요 hyperparameters: lowering mini batch size, learning rate, validation loss 감소, topic 수
- LDA
- Latent Dirichlet Allocation
- unsupervised
- RecordIO-protobf 또는 CSV 입력
- pipe mode의 경우 RecordIC만 가능
- 중요 hyperparameters: topic 수, alpha0
- KNN
- K Nearest Neighbors
- classification - 빈도수 기준
- regression - 평균값 기준
- RecordIO-protobf 또는 CSV 입력
- file, pipe mode
- 중요 hyperparameter: K!
- K-Means
- unsupervised clustering
- 데이터를 k개의 그룹으로 분류
- RecordIO-protobf 또는 CSV 입력
- file, pipe mode
- 중요 hyperparameter: K!, mini batch size, extra center factor
- PCA
- Principal Component Analysis
- Dimensionality reduction
- unsupervised
- RecordIO-protobf 또는 CSV 입력
- file, pipe mode
- 중요 hyperparameter: algorithm mode, subtract mean
- Factorization Machines
- sparse data 처리, 상품 추천 등에 이용
- supervised
- classification, regression
- recordIO-protobut float32 입력으로 받음
- 중요 hyperparameter: 초기 지정 특징
- IP Insights
- unsupervised
- ip 주소 사용 패턴 학습
- csv만 입력 가능
- 중요 hyperparameter: entity vector 수, vertor dim, epochs, learning rate, batch size
- Reinforcement Learning
- Q-Learning (강화학습의 특정 구현 방법)
- MDP(Markov decision process)
반응형
'1차완료 > ML' 카테고리의 다른 글
했던거, 남은거 (0) | 2024.01.19 |
---|---|
ML/AI Services (0) | 2024.01.19 |
Ensemble Learning (0) | 2024.01.18 |
measuring models (0) | 2024.01.18 |
Neural Network Regularization (0) | 2024.01.18 |