Olá. Estou tentando fazer um scrapper do buscador de Jurisprudência do Tribunal de Justiça de Goiás.
Ao fazer a busca pelo meu termo, no caso “dissolucao de sociedade” e inspecionando o elemento, percebe-se que é uma requisição POST, que deveria ter Body’s (pelo o que entendi da aula 3 do Curso de Web Scrapping, minuto 1:25:00), enquanto o GET teria apenas querys cujos parâmetros estarão no próprio URL.
Mas o site do TJGO tem os dois, uma query (que até está no url depois do ?) e uma body, mesmo sendo um POST.
Claro que sei que não é preto no branco tudo, mas buguei por quê? a Função POST só tem o parâmetro body, não uma query também.
Mesmo usando a url de com os parâmetros da query "https://www.tjgo.jus.br/jurisprudencia/juris.php?acao=query&tipo=P&posicao="
ou somente até do url base https://www.tjgo.jus.br/jurisprudencia/juris.php"
o resultado é o mesmo, um html de resposta 200, mas apenas com o site antes dos parâmetros do formulário terem sido gerados.
O código usado está abaixo:
#Srapper TJGO #Autor: Marcello Filgueiras library(tidyverse) # Baixando decisões ------------------------------------------------------- library(httr) library(xml2) url_inicial_tjgo <- "https://www.tjgo.jus.br/jurisprudencia/juris.php?acao=query&tipo=P&posicao=" # Transformando body TJGO ----- busca <- "dissolucao parcial sociedade" body <- abjutils::chrome_to_body("banco: seguranca: ok SearchAction: 3 SearchText: dissolucao parcial sociedade SearchOption: and SearchField: ds_todos SearchActionAX: 3 nrrecursoX: dsrecursoX: decisaoX: ementaX: relatorX: comarcaX: dtacordaoX: SearchOption1X: and SearchOption2X: and SearchOption3X: and SearchOption4X: and SearchOption5X: and SearchOption6X: and SearchOption7X: and button1: Pesquisar posicao: data: totregistros: acao: query tipo: P") httr::POST( url = url_base_tjgo , body = body, write_disk(path = paste("data_raw/", Sys.time() %>% str_replace_all(pattern = " |-|:", replacement = "_"), ".html", sep = "") ))
Qual seria a melhor forma de resolver esse problema?