Feature Engineering

개인의 지식이나 생각을 데이터 모델 트레이닝에 적용하는 것

the curse of dimensionality

너무 많은 feature가 있으면 오히려 안좋음

누락된 데이터 처리 방법:

Mean Replacement
- 평균값으로 대체하기
- 중간 값을 사용하기도 함(outlier가 있는 경우 더 좋을 수도 있음)
- 보통 좋은 방법은 아님
삭제
Machine Learning
- KNN(find K nearest)
- Deep Learning
- Regression
  - MICE (Multiple Imputation by Chained Equations)
데이터 추가

Unbalanced 데이터 처리 방법:

oversampling
undersampling
SMOTE (Synthetic Minority Over-sampling Technique)
- KNN 결과 값으로 데이터 추가(일반적으로 그냥 oversampling 하는 것 보다 결과가 좋다)
positive, negative 여부를 결정하는 한계점을 조절

Outlier 핸들링:

Binning

연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법

Transforming

Encoding

Scaling/ Normalization

Shuffling

Deep Learning 101 (0)	2024.01.18
SageMaker Ground Truth (0)	2024.01.18
EMR Elastic MapReduce (0)	2024.01.18
Amazon Athena, QuickSight (0)	2024.01.17
AWS Glue, Data Pipeline, Batch, DMS (0)	2024.01.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

LOG4J_