본문 바로가기

반응형

1차완료/ML

(34)
AWS 에 나와있는 ML Specialty 시험범위 도메인4/4 도메인 1: 데이터 엔지니어링(채점되는 콘텐츠의 20%) 도메인 2: 탐색적 데이터 분석(채점되는 콘텐츠의 24%) 도메인 3: 모델링(채점되는 콘텐츠의 36%) 도메인 4: 기계 학습 구현 및 운영(채점되는 콘텐츠의 20%) 도메인 4: Machine Learning 구현 및 운영 태스크 설명 4.1: 성능, 가용성, 확장성, 복원성 및 내결함성을 고려한 ML 솔루션 구축 AWS 환경 로깅 및 모니터링 AWS CloudTrail 및 Amazon CloudWatch 오류 모니터링 솔루션 구축 여러 AWS 리전과 여러 가용 영역에 배포 AMI 와 골든 이미지 생성 Docker 컨테이너 생성 Auto Scaling 그룹 배포 리소스 크기를 적절하게 조정(예: 인스턴스, 프로비저닝된 IOPS, 볼륨) 로드 밸..
AWS 에 나와있는 ML Specialty 시험범위 도메인3/4 도메인 1: 데이터 엔지니어링(채점되는 콘텐츠의 20%) 도메인 2: 탐색적 데이터 분석(채점되는 콘텐츠의 24%) 도메인 3: 모델링(채점되는 콘텐츠의 36%) 도메인 4: 기계 학습 구현 및 운영(채점되는 콘텐츠의 20%) 도메인 3: 모델링 태스크 설명 3.1: 비즈니스 문제를 ML 문제로 규정 ML 을 사용해야 하는 경우와 그렇지 않은 경우를 결정 지도 학습과 비지도 학습의 차이점 이해 분류, 회귀, 예측, 클러스터링, 권장 사항 모델 중에서 선택 태스크 설명 3.2: 특정 ML 문제에 적합한 모델 선택 XGBoost, 로지스틱 회귀, K-평균, 선형 회귀, 의사결정 트리, 랜덤 포레스트, RNN, CNN, 앙상블, 전이 학습 모델 배경을 직관적으로 표현 태스크 설명 3.3: ML 모델 훈련 훈련..
AWS 에 나와있는 ML Specialty 시험범위 도메인2/4 도메인 1: 데이터 엔지니어링(채점되는 콘텐츠의 20%) 도메인 2: 탐색적 데이터 분석(채점되는 콘텐츠의 24%) 도메인 3: 모델링(채점되는 콘텐츠의 36%) 도메인 4: 기계 학습 구현 및 운영(채점되는 콘텐츠의 20%) 도메인 2: 탐색적 데이터 분석 태스크 설명 2.1: 모델링용 데이터 정제 및 준비 누락 데이터, 손상 데이터, 중단 단어 식별 및 처리 데이터 포맷, 정규화, 강화, 크기 조정 레이블이 지정된 데이터가 충분한지 확인 완화 전략 파악 데이터 라벨링 도구 활용(예: Amazon Mechanical Turk) 버전 2.3 MLS-C01 5 | 페이지 태스크 설명 2.2: 특성 추출 수행 텍스트, 음성, 이미지, 공개 데이터 집합과 같은 데이터 원본 등의 데이터 집합에서 기능을 파악하고..
AWS 에 나와있는 ML Specialty 시험범위 도메인1/4 도메인 1: 데이터 엔지니어링(채점되는 콘텐츠의 20%) 도메인 2: 탐색적 데이터 분석(채점되는 콘텐츠의 24%) 도메인 3: 모델링(채점되는 콘텐츠의 36%) 도메인 4: 기계 학습 구현 및 운영(채점되는 콘텐츠의 20%) 도메인 1: 데이터 엔지니어링 태스크 설명 1.1: ML 용 데이터 리포지토리 생성 데이터 원본 식별(예: 콘텐츠 및 위치, 사용자 데이터와 같은 주요 소스) 스토리지 매체 결정(예: 데이터베이스, Amazon S3, Amazon Elastic File System[Amazon EFS], Amazon Elastic Block Store[Amazon EBS]) 태스크 설명 1.2: 데이터 수집 솔루션 식별 및 구현 데이터 작업 스타일 및 작업 유형 식별(예: 배치 로드, 스트리밍) ..
했던거, 남은거 udemy강의듣기 udemy강의 자료 읽어보기 aws exam guide 훑어보기 aws 예시문항 5/10 나옴 aws 무료교육(설명 + 예시문항 + 모의고사) aws faq 읽어보기 aws 예시문항 다시 practice exam aws 시험범위별로 재정리 udemy ppt/강의 공식/비공식 기출문제
ML/AI Services Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Rekognition Amazon Forecast Amazon Lex Amazon Personalize Amazon Textract AWS DeepRacer DeepLens AWS Panorama AWS DeepComposer Amazon Fraud Detector Amazon CodeGuru Amazon Kendra Amazon Augmented AI (A2I)
Amazon SageMaker 머신 러닝 일련의 과정을 처리할 수 있게 해줌 input, output 둘 다 s3에 가능 built-in algorithms Linear Learner Linear regression numeric prediction, classification prediction 둘 다 가능 file, pipe 둘다 가능 RecordIO의 경우 float32 만 가능 CSV의 경우 첫번째 칼럼이 레이블로 간주 데이터 전처리에 이용됨(입력 데이터가 shuffled 되어야 함) 트레이닝에 이용됨 validation에 이용됨 - 가장 최적의 모델이 선택됨 중요 hyperparameters: multiclass weights, learning rate, batch size, L1/L2 single CPU, GPU면 충분, ..
Ensemble Learning Random Forest - decision tree 여러개 Bagging - 랜덤 샘플링 여러개, 병렬로 학습 가능 Boosting - 가중치를 매겨서 학습, 이전 모델의 결과를 이어받아 순차적으로 학습 XGBoost가 최근인편 boosting 이 더 정확도가 높은 반면 bagging이 overfitting 방지에 좋다
measuring models Recall: true positives / true positives + false negatives - 'true positive rate' Precision: true positives / true positives + false positives - 'correct positives' Specificity = TN / (TN+FP) - 'true negative rate' F1 score = 2TP / (2TP + FP + FN) RMSE (Root mean square error) - accuracy measurement ROC curve (Receiver Operating Characteristic Curve) - 좌상향으로 더 굽어질수록 좋은 모델 AUC (Area Under the ROC ..
Neural Network Regularization 정규화 목적: overfitting 방지 너무 많은 layer/neuron 이 있을 경우: dropout early stopping gradient checking L1, L2 L1: weight 의 합, feature selection, sparse output L2: weight 제곱의 합, all features, dense output L1보다 L2가 computationally efficient 하지만 L1이 sparsity로 극복 할 수도 L1이 오히려 feature selection 해서 dimensionality를 줄일 수 있

반응형