Dúvida ao pegar várias páginas no webscraping

lailaviana · Outubro 16, 2022, 7:41pm

Boa tarde pessoal,
Sou aluna do curso de Webscraping e ao fazer meu trabalho final, me deparei com uma dúvida. Eu consegui baixar a primeira página do site que quero extrair os dados mas ao passar para a segunda página, ele não me gera um link em que há mudança no número de páginas que eu possa editar e recuperar as demais. O site volta para o link original sem busca. Alguma sugestão de como resolver isso?
O site que quero trabalhar é: Home - SRA - NCBI
E a busca que quero fazer é Trypanosoma cruzi.

Segue um exemplo do que estou fazendo:

busca -------------------------------------------------------------------

u_sra ← “trypanosoma cruzi - SRA - NCBI”
r_sra ← httr::GET(u_sra,
httr::write_disk(“tryp_busca_get.html”, overwrite = TRUE))

quantidade de páginas ---------------------------------------------------

clente · Outubro 17, 2022, 2:51pm

Laila,

Eu fiz alguns testes e aparentemente você precisaria reproduzir o POST que o site faz quando o “next” é clicado. Infelizmente, essa parece ser a resposta:

Warning: The NCBI web site requires JavaScript to function.

Talvez seja necessário raspar com webdriver se você quiser acessar uma página além da primeira.

lailaviana · Outubro 17, 2022, 3:26pm

Oi Caio,
Obrigada, vou tentar pelo webdriver e dou notícias

brunomioto · Outubro 24, 2022, 2:57am

Oi Laila,

Sei que esse é parte do trabalho com webscrapping, mas caso queira obter os dados (e até conferir o código) dê uma olhada no pacote rentrez Entrez in R • rentrez !

lailaviana · Outubro 25, 2022, 11:44am

Oi Bruno, não conhecia esse pacote! Adorei, vou usar com certeza no dia a dia! Muito obrigada