반응형
개인의 지식이나 생각을 데이터 모델 트레이닝에 적용하는 것
- (하기 목록 등을 결정하는 것)
- 어떤 걸 기준삼아 트레이닝 할 지
- 어떻게 데이터를 가공할지
- 어떻게 누락된 데이터를 처리할지
- 어떻게 새로운 모델을 기존거에서 만들어 낼 지 등
the curse of dimensionality
너무 많은 feature가 있으면 오히려 안좋음
누락된 데이터 처리 방법:
- Mean Replacement
- 평균값으로 대체하기
- 중간 값을 사용하기도 함(outlier가 있는 경우 더 좋을 수도 있음)
- 보통 좋은 방법은 아님
- 삭제
- Machine Learning
- KNN(find K nearest)
- Deep Learning
- Regression
- MICE (Multiple Imputation by Chained Equations)
- 데이터 추가
Unbalanced 데이터 처리 방법:
- oversampling
- undersampling
- SMOTE (Synthetic Minority Over-sampling Technique)
- KNN 결과 값으로 데이터 추가(일반적으로 그냥 oversampling 하는 것 보다 결과가 좋다)
- positive, negative 여부를 결정하는 한계점을 조절
Outlier 핸들링:
- variance는 평균값과 차이의 평균을 제곱한 값의 평균
- standard deviation 은 variance 의 루트 - 이 값이 보통 outlier 기준 값이 된다
- 데이터에서 제거할지 말지는 신중히
- AWS Random Cut Forest algorithm - outlier detection
Binning
연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법
Transforming
Encoding
- one-hot encoding (deep learning에 많이 사용됨)
Scaling/ Normalization
Shuffling
반응형
'1차완료 > ML' 카테고리의 다른 글
Deep Learning 101 (0) | 2024.01.18 |
---|---|
SageMaker Ground Truth (0) | 2024.01.18 |
EMR Elastic MapReduce (0) | 2024.01.18 |
Amazon Athena, QuickSight (0) | 2024.01.17 |
AWS Glue, Data Pipeline, Batch, DMS (0) | 2024.01.17 |