Pessoal, tudo bem?
Estava pensando aqui qual seria a ordem correta para aplicar um pre-processamento em juma BD usando recipe.
Devo usar em qual ordem as necessidades abaixo visando o tratamento de variaveis numericas:
- inputacao de missings
- eliminacao de outliers
- uso do center (step_center)
- uso do scale (step_scale)
- uso da normalizacao (step_normalize)
Estou fazendo o curso de XGBoost e surgiu essa duvida.
Obrigado,
Salerno
Olá, André!
Então, minha contribuição seria:
-
Tratamento de outliers. Não necessariamente elimina-los. Se for algo intratável, então, sim descartá-lo. Pode-se usar estatísticas robustas ou médias truncadas, etc., no tratamento deles!
- Inputação de missings. Isso vem depois do outliers, porque a maneira de você inputar estes dados pode se basear nos outliers o que traria um viés muito grande.
- Se já vais utilizar step_normalize no final de tudo, então, step_center e step_scale se tornam redudantes, já que o step_normalize faz esses dois procedimentos.
1 curtida
Muito obrigado @Adriel_Martins! Vou inserir em minha rotina seus comentarios. Obrigado!
1 curtida