Tudo bem pessoal?
Estou extraindo dados de vários arquivos pdf, usando regex conforme código abaixo
#### Definindo diretório ####
wdpadrao <- getwd()
setwd("C:\\Users\\RibeiroF\\OneDrive\\Francisco\\Área de Trabalho\\Biometria\\PDF")
#### Lendo somente arquivos .pdf ####
pdfs = list.files(pattern="*.pdf")
#### Colocando os arquivos pdf em uma lista ####
lista <- map(pdfs, .f = function(arquivos){
pdf_text(arquivos) %>%
readr::read_lines() %>%
str_squish() %>%
str_to_lower
})
#### Extraindo os dados ####
empresa <- map(lista, ~.x %>% str_extract(pattern = "empresa responsável: abc"))
gestor <- map(lista, ~.x %>% str_extract(pattern = "gestor responsável: Francisco"))
projeto <- map(lista, ~.x %>% str_extract(pattern = "id projeto: eixo 6"))
triagem <- map(lista, ~.x %>% str_extract(pattern = "triagem:\\s*[:alpha:]{1,20}"))
extracao <- c(empresa, gestor, projeto, triagem)
#### Tranformando os itens extraidos em dataframe ####
for (i in 1:length(extracao)) {
assign(paste0("", i), as.data.frame(extracao[[i]]))
}
Preciso saber, como gravar o nome de cada arquivo pdf, nas linhas de cada objeto criado (empresa, gestor, projeto, triagem) , uma vez que a busca ocorre dentro de vários arquivos