Dúvida Web-Scraping

ozias_filho · Agosto 21, 2020, 1:46pm

Oi, bom dia!
Estou querendo fazer um web scraping do Diário Oficial do meu Estado, as edições do diário estão disponíveis no link: http://pesquisa.doe.seplag.ce.gov.br/doepesquisa/sead.do?page=ultimasEdicoes&cmd=11&action=Ultimas
A ideia é delimitar um ano e fazer o download de todas as edições do Diário Oficial do ano escolhido.
Mas tenho algumas dúvidas sobre esse processo, no link acima, é exibido uma lista suspensa com os anos, para escolher 1 ano. Após escolher o ano, aparece outra caixa de seleção (lista suspensa) onde são mostradas as datas do ano escolhido. Ao selecionar qualquer data, ele me abre uma nova janela com todos os cadernos publicados no determinado dia.

Uma solução possível é atualizar o link na página que se abre ao selecionar uma data. Mas fiz o teste com uma data em especifico:
http://pesquisa.doe.seplag.ce.gov.br/doepesquisa/sead.do?page=ultimasDetalhe&cmd=10&action=Cadernos&data=20200813 e ao aplicar o seguinte código:

link<-"http://pesquisa.doe.seplag.ce.gov.br/doepesquisa/sead.do?page=ultimasDetalhe&cmd=10&action=Cadernos&data=20200813"
teste<-link %>% 
  read_html() %>% 
  html_nodes(".LinkPreto") %>% 
  html_attr('href')

No link acima, tivemos dois cadernos publicados no diário oficial… Mas com o código que testei acima, não consigo obter os links pra conseguir automatizar os downloads depois…

Como posso resolver isso?

clente · Agosto 21, 2020, 5:15pm

Ozias, note que, quando você executa o html_nodes() com esse seletor, ele está retornando uma <div> e não o link <a> que queremos. Neste caso, basta mudar o seletor para ".LinkPreto > a".

ozias_filho · Agosto 24, 2020, 5:28pm

Obrigado @clente!

pvieiradeoliveira · Agosto 26, 2020, 2:34pm

Olá. Preciso de uma ajuda também, so que em relação ao site da B3/CVM
Tem um código de javascript do qual não consigo retirar o html ou como exportar o conteúdo. Alguém pode me ajudar?
o link é
https://www.rad.cvm.gov.br/ENETCONSULTA/frmGerenciaPaginaFRE.aspx?NumeroSequencialDocumento=92784&CodigoTipoInstituicao=2

thanks