Ordem tecnica usando recipe

Pessoal, tudo bem?

Estava pensando aqui qual seria a ordem correta para aplicar um pre-processamento em juma BD usando recipe.

Devo usar em qual ordem as necessidades abaixo visando o tratamento de variaveis numericas:

  1. inputacao de missings
  2. eliminacao de outliers
  3. uso do center (step_center)
  4. uso do scale (step_scale)
  5. uso da normalizacao (step_normalize)

Estou fazendo o curso de XGBoost e surgiu essa duvida.

Obrigado,

Salerno

Olá, André!

Então, minha contribuição seria:

  1. Tratamento de outliers. Não necessariamente elimina-los. Se for algo intratável, então, sim descartá-lo. Pode-se usar estatísticas robustas ou médias truncadas, etc., no tratamento deles!
  2. Inputação de missings. Isso vem depois do outliers, porque a maneira de você inputar estes dados pode se basear nos outliers o que traria um viés muito grande.
  3. Se já vais utilizar step_normalize no final de tudo, então, step_center e step_scale se tornam redudantes, já que o step_normalize faz esses dois procedimentos.
1 curtida

Muito obrigado @Adriel_Martins! Vou inserir em minha rotina seus comentarios. Obrigado!:wink:

1 curtida