Extração de dados de pdf

fdpr · Abril 11, 2023, 6:19pm

Tudo bem pessoal?

Estou extraindo dados de vários arquivos pdf, usando regex conforme código abaixo

#### Definindo diretório ####

wdpadrao <- getwd()
setwd("C:\\Users\\RibeiroF\\OneDrive\\Francisco\\Área de Trabalho\\Biometria\\PDF")

#### Lendo somente arquivos .pdf ####

pdfs = list.files(pattern="*.pdf") 

#### Colocando os arquivos pdf em uma lista ####

lista <- map(pdfs, .f = function(arquivos){   
  pdf_text(arquivos) %>%                      
    readr::read_lines() %>%         
    str_squish() %>%               
    str_to_lower     
})

#### Extraindo os dados ####

empresa  <- map(lista, ~.x %>% str_extract(pattern = "empresa responsável: abc"))
gestor <- map(lista, ~.x %>% str_extract(pattern = "gestor responsável: Francisco"))
projeto <- map(lista, ~.x %>% str_extract(pattern = "id projeto: eixo 6"))
triagem <- map(lista, ~.x %>% str_extract(pattern = "triagem:\\s*[:alpha:]{1,20}"))

extracao <- c(empresa, gestor, projeto, triagem)

#### Tranformando os itens extraidos em dataframe ####

for (i in 1:length(extracao)) {
  assign(paste0("", i), as.data.frame(extracao[[i]]))
}

Preciso saber, como gravar o nome de cada arquivo pdf, nas linhas de cada objeto criado (empresa, gestor, projeto, triagem) , uma vez que a busca ocorre dentro de vários arquivos

fdpr · Junho 12, 2023, 4:41pm

Eu descobri. Quem a titulo de curiosidade seria

lista ← map(pdfs, .f = function(arquivos){
pdf_text(arquivos) %>%
readr::read_lines() %>%
str_squish() %>%
str_to_lower
})

names ← pdfs
names(lista) ← pdfs

Obrigado ao forum!