Olá pessoal, gostaria de sugestões para lidar com desbalanceamento de classes. Levando-se em consideração que tenho alguns casos em que a quantidade de registros não é grande a ponto de simplesmente emparelhar as quantidades de uma classe com outra. Vocês conhecem/sugerem algum step para isso? Pesquisei a respeito e existem várias formas de tratar, no entanto, gostaria de ouvi-los também.
Desde já, agradeço a atenção dispensada.
Olá @Fabio_Franco, obrigado por usar o discourse!
Eu não sei se entendi bem sua pergunta. Você está procurando materiais para i) trabalhar com variáveis que possuem categorias pouco frequentes ou ii) trabalhar com modelagem estatística quando a variável resposta é desbalanceada ou iii) outra coisa?
Para (i), eu recomendaria dar uma olhada no pacote {forcats}
. Ele ajuda bastante a trabalhar com categorias. A função fct_lump_n()
por exemplo é bem útil nesse contexto.
Para (ii) eu recomendaria algum material de regressão, como esse aqui do professor Gilberto de Paula: https://www.ime.usp.br/~giapaula/texto_2013.pdf
Para (iii), você me diz