본문 바로가기

반응형

1차완료/ML

(34)
Tuning Neural Networks learning rate (hyperparameter 중 하나) batch 가 너무 작으면 local minima에 stuck하지 않게 됨 큰 batch는 하나로 converge되지 않아서 올바른 해결책이 되지 않을 수 있음 learning rate가 크면 최적의 답을 건너 뛸 수 있음 learning rate가 작으면 training time 이 증가하게 됨
Modern Natural Language Processing Transformer BERT (Bi-directional Encoder) GPT (Generative Pre-trained Transformer) Hugging Face Hugging Face 와 같이 pre-trained model 쓸 때: 그대로 쓴다 learning rate 낮춰서 이어서 training 한다 layer fmf cnrkgksek 가지고 있는 데이터가 충분할 경우 처음부터 다시 트레이닝한다
CNN, RNN CNN 사용 예: 이미지 안에 어떤 게 있는지 기계 번역 문장 분류 감정 분석 CNN: visual cortex 기반 고성능 필요 LeNet-5, AlexNet, GoogLeNet, ResNet RNN 사용 예: 과거 데이터 기반 미래 예측 때 시간 흐름이 있는 데이터 생성 시 LSTM cell (Long Short-Term Memory Cell) GRU cell (Gated Recurrent Unit) - LSTM보다 심플하지만 비슷
Deep Learning 101 Neurons Cortical columns Neural Networks 종류: Feedforward NN Convolutional NN Recurrent NN LSTM, GRU Activation Functions Linear backpropagation 불가 Binary step function on/off 둘 중 하나 multiple classification 불가 미분 불가 sigmoid logistic TanH(선호하는 경우 많음) ReLU(Rectified Linear Unit) leaky ReLU PReLU(parametric ReLU) ELU(Exponential ReLU) Swish Maxout softmax softmax multiple classification은 softmax를 ou..
SageMaker Ground Truth 데이터 label을 매길 때 사람이 다 일일이 하지 않고 몇개 하면 학습된 모델이 불확실한 값들만 따로 물어보는 방식 Rekognition : AWS image recognition Comprehend : AWS 텍스트 분석
Feature Engineering 개인의 지식이나 생각을 데이터 모델 트레이닝에 적용하는 것 (하기 목록 등을 결정하는 것) 어떤 걸 기준삼아 트레이닝 할 지 어떻게 데이터를 가공할지 어떻게 누락된 데이터를 처리할지 어떻게 새로운 모델을 기존거에서 만들어 낼 지 등 the curse of dimensionality 너무 많은 feature가 있으면 오히려 안좋음 누락된 데이터 처리 방법: Mean Replacement 평균값으로 대체하기 중간 값을 사용하기도 함(outlier가 있는 경우 더 좋을 수도 있음) 보통 좋은 방법은 아님 삭제 Machine Learning KNN(find K nearest) Deep Learning Regression MICE (Multiple Imputation by Chained Equations) 데이터..
EMR Elastic MapReduce mapreduce: EMR (Elastic MapReduce): EC2에서 사용 가능한 Hadoop 프레임워크 spark, hbase, presto, flink, hive 등 포함 AWS 와 연동 가능한 부분이 꽤 있음 EMR 클러스터 구성 (각 node는 ec2인스턴스이다): master node: 클러스터 매니징 single EC2 instance core node: HDFS 데이터 호스팅 태스크 실행 scale up, down 가능하지만 리스크가 따름 task node: 태스크 실행, 데이터는 호스팅 안함 삭제 시 데이터 리스크 없음 EMR notebook: Zeppling 과 유사하지만 aws 와 더 연동 가능 s3에 백업됨 VPC 내에서 호스팅됨 AWS콘솔로만 접근 가능함 EMR보안: IAM p..
Amazon Athena, QuickSight Athena: S3에 사용 가능한 interactive query service 내부적으로 presto serverless 다양한 데이터 포맷 지원 구조화 되어있거나 구조화되어 있지 않은 데이터 모두 가능 QuickSight: 클라우드 기반 비즈니스 분석 시스템
AWS Glue, Data Pipeline, Batch, DMS **내가 이해한대로 아무렇게나 메모... Glue: metadata 저장소 자동으로 스키마를 유추하고 버전매김 Athena, Redshift Spectrum 등과 연동해서 쓸 수 있음 Glue Crawlers가 Glud Data Catalog를 만들고 데이터 스키마와 파티셔닝 관련된 기능 Glue ETL: 데이터 추출, 가공, 적재까지 분석 전에 가능 python, scala 기반 머신러닝을 위한 AWS 데이터 적재: Redshift RDS, Aurora Dynamo DB S3 OpenSearch(기존 ElasticSearch) ElastiCache Data Pipeline: S3, RDS, DynamoDB, Readshift, EMR에 데이터 적재 on-premises 데이터 받아 올 수 있음 환경 조..
ETL

반응형