[modelagem][xgboost] Dados severamente desbalanceados

talitalobo · Março 29, 2022, 3:15pm

Bom dia, pessoal!

Estou tentando modelar um cenário de classificação de risco onde há um severo desbalanceamento - 1% de classe minoritária.

Atualmente tenho utilizado XGBoost + Cost sensitive learning (scale pos weight). Já tentei métodos de sampling também (que com dados reais nunca obtive resultados promissores).
Tenho utilizado LatinHiperCube para criação do grid de Hiperparametros, e a métrica que estou utilizando para seleção do melhor modelo e hiperparâmetros é o PRAUC, dado a natureza de desbalanço nos dados. Entretanto ainda não consegui chegar em um resultado promissor/animador.

Alguém já enfrentou um cenário de desbalanço assim tão severo que queira/possa bater um papo?