Ordem tecnica usando recipe

andresalerno · Julho 9, 2021, 11:27pm

Pessoal, tudo bem?

Estava pensando aqui qual seria a ordem correta para aplicar um pre-processamento em juma BD usando recipe.

Devo usar em qual ordem as necessidades abaixo visando o tratamento de variaveis numericas:

Estou fazendo o curso de XGBoost e surgiu essa duvida.

Obrigado,

Salerno

Adriel_Martins · Julho 16, 2021, 9:44pm

Olá, André!

Então, minha contribuição seria:

Tratamento de outliers. Não necessariamente elimina-los. Se for algo intratável, então, sim descartá-lo. Pode-se usar estatísticas robustas ou médias truncadas, etc., no tratamento deles!
Inputação de missings. Isso vem depois do outliers, porque a maneira de você inputar estes dados pode se basear nos outliers o que traria um viés muito grande.
Se já vais utilizar step_normalize no final de tudo, então, step_center e step_scale se tornam redudantes, já que o step_normalize faz esses dois procedimentos.

andresalerno · Julho 18, 2021, 5:39pm

Muito obrigado @Adriel_Martins! Vou inserir em minha rotina seus comentarios. Obrigado!