Dúvida teórica sobre features - XGBoost

Possuo uma base de notas fiscais (NFe) com as seguintes variáveis: identificador da NFe, CNPJ/CPF do destinatário da NFe, valor unitário da compra, quantidade comprada, valor bruto (pxq), entre outras. E preciso classificar essa base em canais de distribuição (segmento 1, segmento 2, segmento 3). O segmento 1 são mercados maiores com mais de 5 checkouts, exemplo: wal-mart. O segmento 2 são mercados menores com até 5 checkouts, exemplo: mercearias, quintandas. E o segmento 3 são bares, restaurantes. Derivei algumas variáveis quantitativas da base para treinar o modelo utilizando o algoritmo XGBoost.

Varáveis quantitativas criadas:
-Média do valor bruto da compra por CNPJ/CPF do comprador
-Média da quantidade comprada por CNPJ/CPF do comprador
-Valor bruto mensal por CNPJ/CPF do comprador
-Quantidade mensal comprada por CNPJ/CPF do comprador
-Quantidade média de NFes por CNPJ/CPF do comprador
-Quantidade de produtos diferentes na NFEs por CNPJ/CPF do comprador
-Quantidade de produtos diferentes na NFEs (média mênsal) por CNPJ/CPF do comprador

Minha dúvida é em relação a essas features. Gostaria de saber a opinião de vocês, essas variáveis elas parecem boas features para treinar o modelo? Pode haver um problema de multicolinearidade?

Desde já agradeço.

1 curtida