Dúvida ao pegar várias páginas no webscraping

Boa tarde pessoal,
Sou aluna do curso de Webscraping e ao fazer meu trabalho final, me deparei com uma dúvida. Eu consegui baixar a primeira página do site que quero extrair os dados mas ao passar para a segunda página, ele não me gera um link em que há mudança no número de páginas que eu possa editar e recuperar as demais. O site volta para o link original sem busca. Alguma sugestão de como resolver isso?
O site que quero trabalhar é: Home - SRA - NCBI
E a busca que quero fazer é Trypanosoma cruzi.

Segue um exemplo do que estou fazendo:

busca -------------------------------------------------------------------

u_sra ← “trypanosoma cruzi - SRA - NCBI
r_sra ← httr::GET(u_sra,
httr::write_disk(“tryp_busca_get.html”, overwrite = TRUE))

quantidade de páginas ---------------------------------------------------

n_pags ← r_sra |>
httr::content() |>
xml2::xml_find_first(“//h3[@class=‘page’]”) |>
xml2::xml_text() |>
stringr::str_extract(“[0-9]+$”) |>
as.numeric()

Laila,

Eu fiz alguns testes e aparentemente você precisaria reproduzir o POST que o site faz quando o “next” é clicado. Infelizmente, essa parece ser a resposta:

Warning: The NCBI web site requires JavaScript to function.

Talvez seja necessário raspar com webdriver se você quiser acessar uma página além da primeira.

Oi Caio,
Obrigada, vou tentar pelo webdriver e dou notícias :smile:

Oi Laila,

Sei que esse é parte do trabalho com webscrapping, mas caso queira obter os dados (e até conferir o código) dê uma olhada no pacote rentrez Entrez in R • rentrez !

1 curtida

Oi Bruno, não conhecia esse pacote! Adorei, vou usar com certeza no dia a dia! Muito obrigada :slight_smile: