Oi pessoal, bom dia!
Fiz a leitura de vários pdf’s com o pdftools::pdf_text(), e estou gerando um banco de dados pra ir armazenando os resultados… só que não consigo que os valores numéricos vão em uma outra coluna, diferente da textual…
Exemplo de saída:
Nome PDF; Descrição
PDF 1; Texto Exemplo 50,00
PDF 2; Novo Texto -50,00
Tentei utilizando o tidyr::separate, mas não consegui… Possivelmente estou errando na regex:
@clente consegui de uma maneira não muito prática rsrs… Mas deu certo…
Utilizei o mutate e o str_sub pra pegar os ultimos 10 caracteres do campo Descrição em uma nova variável…
Depois separei essa nova variável com a sua primeira orientação, utilizando o separate(Descrição, c("Descrição", "Valor"), " (?=[0-9\\-\\,]+)")
Em seguida, utilizando o str_remove_all removi todos os valores que ainda apareciam no campo de Descrição e após isso, removi os espaços extras de todas as variáveis…
Depois foi só passar pra numérico com o mutate(Valor = parse_number(Valor, locale = locale(decimal_mark = ",")))
E cheguei ao conjunto de dados que me interessava no final… Muito obrigado pela ajuda!!