Dúvida Web-Scraping

Oi, bom dia!
Estou querendo fazer um web scraping do Diário Oficial do meu Estado, as edições do diário estão disponíveis no link: http://pesquisa.doe.seplag.ce.gov.br/doepesquisa/sead.do?page=ultimasEdicoes&cmd=11&action=Ultimas
A ideia é delimitar um ano e fazer o download de todas as edições do Diário Oficial do ano escolhido.
Mas tenho algumas dúvidas sobre esse processo, no link acima, é exibido uma lista suspensa com os anos, para escolher 1 ano. Após escolher o ano, aparece outra caixa de seleção (lista suspensa) onde são mostradas as datas do ano escolhido. Ao selecionar qualquer data, ele me abre uma nova janela com todos os cadernos publicados no determinado dia.

Uma solução possível é atualizar o link na página que se abre ao selecionar uma data. Mas fiz o teste com uma data em especifico:
http://pesquisa.doe.seplag.ce.gov.br/doepesquisa/sead.do?page=ultimasDetalhe&cmd=10&action=Cadernos&data=20200813 e ao aplicar o seguinte código:

link<-"http://pesquisa.doe.seplag.ce.gov.br/doepesquisa/sead.do?page=ultimasDetalhe&cmd=10&action=Cadernos&data=20200813"
teste<-link %>% 
  read_html() %>% 
  html_nodes(".LinkPreto") %>% 
  html_attr('href')

No link acima, tivemos dois cadernos publicados no diário oficial… Mas com o código que testei acima, não consigo obter os links pra conseguir automatizar os downloads depois…

Como posso resolver isso?

Ozias, note que, quando você executa o html_nodes() com esse seletor, ele está retornando uma <div> e não o link <a> que queremos. Neste caso, basta mudar o seletor para ".LinkPreto > a". :slight_smile:

1 curtida

Obrigado @clente! :smiley:

Olá. Preciso de uma ajuda também, so que em relação ao site da B3/CVM
Tem um código de javascript do qual não consigo retirar o html ou como exportar o conteúdo. Alguém pode me ajudar?
o link é
https://www.rad.cvm.gov.br/ENETCONSULTA/frmGerenciaPaginaFRE.aspx?NumeroSequencialDocumento=92784&CodigoTipoInstituicao=2

thanks