본문 바로가기

1차완료/ML

Feature Engineering

반응형

개인의 지식이나 생각을 데이터 모델 트레이닝에 적용하는 것

  • (하기 목록 등을 결정하는 것)
  • 어떤  걸 기준삼아 트레이닝 할 지
  • 어떻게 데이터를 가공할지
  • 어떻게 누락된 데이터를 처리할지
  • 어떻게 새로운 모델을 기존거에서 만들어 낼 지 등

 

the curse of dimensionality

너무 많은 feature가 있으면 오히려 안좋음

 

 

누락된 데이터 처리 방법:

  1. Mean Replacement
    • 평균값으로 대체하기
    • 중간 값을 사용하기도 함(outlier가 있는 경우 더 좋을 수도 있음)
    • 보통 좋은 방법은 아님
  2. 삭제
  3. Machine Learning
    • KNN(find K nearest)
    • Deep Learning
    • Regression
      • MICE (Multiple Imputation by Chained Equations)
  4. 데이터 추가

 

Unbalanced 데이터 처리 방법:

  • oversampling
  • undersampling
  • SMOTE (Synthetic Minority Over-sampling Technique)
    • KNN 결과 값으로 데이터 추가(일반적으로 그냥 oversampling 하는 것 보다 결과가 좋다)
  • positive, negative 여부를 결정하는 한계점을 조절

 

Outlier 핸들링:

  • variance는 평균값과 차이의 평균을 제곱한 값의 평균
  • standard deviation 은 variance 의 루트 - 이 값이 보통 outlier 기준 값이 된다
  • 데이터에서 제거할지 말지는 신중히
  • AWS Random Cut Forest algorithm - outlier detection

 

Binning

연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법

 

Transforming

 

Encoding

  • one-hot encoding (deep learning에 많이 사용됨)

Scaling/ Normalization

 

Shuffling

반응형

'1차완료 > ML' 카테고리의 다른 글

Deep Learning 101  (0) 2024.01.18
SageMaker Ground Truth  (0) 2024.01.18
EMR Elastic MapReduce  (0) 2024.01.18
Amazon Athena, QuickSight  (0) 2024.01.17
AWS Glue, Data Pipeline, Batch, DMS  (0) 2024.01.17