Ajuda com extração de tabela em pdf - presos pela Seape/DF

anarina · Janeiro 20, 2023, 7:15pm

Boa tarde! Perguntando por aqui caso alguém tenha testado a extração das tabelas de presos que a Seape/DF tem divulgado desde a semana passada. (Fonte: https://seape.df.gov.br/prisoes-dos-atentados-bsb/)

Hoje eles mudaram o sistema de divulgação: continuam sendo tabelas bonitinhas em PDF, que o Tabula extrai sem problemas, mas agora dividida em três arquivos diferentes:

mulheres ainda detidas: https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
homens ainda detidos: https://seape.df.gov.br/wp-content/uploads/2023/01/cdp2-20.01-2.pdf
pessoas soltas com tornozeleira eletrônica: https://seape.df.gov.br/wp-content/uploads/2023/01/cime-20.01.pdf

Como a atualização, principalmente da terceira tabela, deve ainda sair várias vezes, decidi finalmente ajustar um código pra não ter que usar o site do Tabula.

Até consegui pegar direitinho as tabelas que ficam a partir da página 2 com o tabulizer. Eu uso o “extract_tables”, escolho as páginas de uma vez, depois uso “reduce(list, rbind)” e daí “as.data.frame()” e é uma maravilha.

Mas a página 1 tem uma primeira “linha da tabela” que é na verdade o título do documento, e ainda tem uma imagem inserida. Pelo visto eles fazem no Excel e exportam pra PDF.

Isso é o que tá atrapalhando tudo: essa primeira página não consegui exportar de uma forma minimamente adequada até agora. Testei as opções nos posts que o @Athospd e o @jtrecenti já fizeram sobre o tema, mas falhei rs.

Já tentei com o tabulizer, mas a lista nunca tem 3 elementos, é 1x1, ele não enxerga tabela.

Já tentei com o pdftools e também não deu certo. Não aparece nenhuma tabela.

Já tentei com o tesseract, salvei uma imagem, daí usei a função ocr. O resultado é um textão do documento todo na mesma célula, separado por um monte de caracteres malucos, não consegui achar um padrão neles pra tentar usar regex e transformar em algo que possa depois virar um dataframe.

Por isso estou sondando vários grupos da galera do R pra ver se tem mais alguém mergulhado nessa tarefa e trocar figurinhas. Ou quem sabe convencer alguém a entrar nessa AVENTURA…

beatrizmilz · Janeiro 20, 2023, 7:59pm

Carol, vou tentar ajudar! Assim que tiver algo esboçado respondo aqui novamente.

beatrizmilz · Janeiro 20, 2023, 8:17pm

Carol, fiz uma função baseada nesses arquivos.
Seria bom ir aprimorando com mais arquivos nos próximos dias.
O caminho dos arquivos tem algum padrão?

Exemplo dos dados raspados:

github.com

beatrizmilz/pdfSEAPE/blob/main/data-raw/dados-20.01.csv

nome,data_nascimento,uf,tipo_informacao,arquivo_extracao
ABIGAIL NUNES DA COSTA,10.01.1973,MT,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ADALGIZA MARIA DOURADO,01.01.1960,DF,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ADILMA MARIA CARDOSO,02.07.1964,PE,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ADRIANA ALVES DE ALMEIDA,25.04.1970,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ADRIANA CAMARGO DA SILVA LEMES,08.09.1986,GO,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ADRIANA SALVADOR PLACIDO,30.09.1968,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ADRIELLE CRISTINA TRIGO,01.11.1985,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALESSANDRA CRISTIANE DOS SANTOS NASCIMENTO,02.03.1971,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALESSANDRA FARIA RONDON,22.01.1984,BA,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALESSANDRA MALVINA DA TRINDADE MICHELS,17.05.1980,SC,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALETHEA VERUSCA SOARES,30.10.1974,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALEXSANDRA APARECIDA DA SILVA,11.05.1982,MG,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALICE NASCIMENTO DOS SANTOS,14.7.1974,DF,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALICE TEREZINHA COSTA DA COSTA,23.03.1971,RS,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ALINE CABAL DIAS,09.05.1989,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ANA CAROLINA ISIQUE GUARDIERI BRENDOLAN,20.03.1992,SP,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ANA CAROLINA MARTE SILVA,09.08.1998,MG,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ANA CAROLINA VIEIRA CINTRA MARQUES VASCONCELLOS,07.11.1986,CE,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf
ANA CLAUDIA RODRIGUES DE ASSUNÇAO,26.08.1967,PR,Penitenciária Feminina do Distrito Federal - PFDF,https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf

This file has been truncated. show original

Código:

github.com

beatrizmilz/pdfSEAPE/blob/main/R/extrair_dados_pdf.R

# exemplo de url do arquivo
# url <- "https://seape.df.gov.br/wp-content/uploads/2023/01/pfdf-20.01.pdf"

extrair_dados_pdf <- function(url) {
  # extraindo o texto do PDF
  texto <- pdftools::pdf_text(url)

  # transformando a lista em uma tibble BEM bagunçada
  dados_brutos <- tibble::tibble(texto = unlist(texto)) |>
    dplyr::mutate(texto = stringr::str_split(texto, pattern = "\\n")) |>
    tidyr::unnest(cols = c(texto)) |>
    dplyr::filter(texto != "") |>
    tibble::rowid_to_column()

  # extraindo o nome da penitenciária
  tipo_info <- dados_brutos |>
    dplyr::filter(stringr::str_starts(texto, "Penitenciária|Centro")) |>
    dplyr::pull(texto)

  # descobre a linha de inicio do código

This file has been truncated. show original

anarina · Janeiro 20, 2023, 8:41pm

Te amo, Bea! Que coisa mais linda!

O Fernando Barbalho também bolou uma soluçãozinha com regex, dei uma ajustada e funcionou pra primeira página. Vou deixar abaixo! Mas já tô abrindo a sua aqui sim pra ver e aplicar!

E enquanto isso eu fui lá na secretaria pedir pra eles voltarem com o padrão anterior, que funcionava. Eles disseram que vão testar, mas explicaram que antes o PDF era meio emergencial e agora conseguiram automatizar essa lista no sistema deles. Então acho que vai ter padrão com o nome dos arquivos sim, finalmente.

Olha só a solução com regex do Barba:

cime_1<- tabulizer::extract_text("https://seape.df.gov.br/wp-content/uploads/2023/01/cime-20.01.pdf", pages = 1)

str_length("Secretaria de Estado de Administração Penitenciária do Distrito Federal\r\nCentro de Monitoração Eletrônica - CIME\r\n")

cime_1<-
  str_sub(cime_1,115,str_length(cime_1))

cime_1<-
  str_replace_all(cime_1,"\\s(?=[:digit:])|(?<=[:digit:])\\s", ";")

cime_1<-
  str_replace_all(cime_1,"Nome Data de Nascimento UF", "nome;data_nascimento;uf")

write(cime_1, "cime_pag_1.csv")

cime_pag_1 <- read.csv2("cime_pag_1.csv")