Web Scraping Qualquer Coisa

marcellofilgueiras · Março 31, 2021, 9:44pm

Olha, vamos aqui com um pouco de jurimetrics.

Eu to pesquisando autorregulação da B3, feita pela BSM, e até comecei a fazer um scrapper dos processos administrativos da BSM.

A listagem com todos os processos está aqui: https://www.bsmsupervisao.com.br/atividades-disciplinares-e-processos/acompanhe-os-processos

Dos dados de cada processo, esse link “exportar para o excel” gera todas as informações que estão presentes no link acima e no https://www.bsmsupervisao.com.br/atividades-disciplinares-e-processos/acompanhe-os-processos/detalhes/PAD-001/2008 , que são detalhes/PAD-001/2008. Até aqui não há necessidade de web scrapping.

Eu queria scrappar a página que vem com “Ementas e Documentos do Processo” que alguns têm a ementa da decisão e até o inteiro teor, além links para outros documentos em pdfs.

https://www.bsmsupervisao.com.br/atividades-disciplinares-e-processos/acompanhe-os-processos/parecer/2010-001-pad

Parsear, de modo uniforme algumas páginas que as vezes tem ementas, as vezes não tem, as vezes só links, tem sido uma certa dificuldade pra mim. Eu tentei usando aquele método que vcs usaram na outra live, olhando o padrão do site e dando paste(“https://www.bsmsupervisao.com.br/atividades-disciplinares-e-processos/acompanhe-os-processos/parecer/”, str_extract("\d*\-\d*),"-pad") .

o httr rolou, mas o parse parou aí! kk

Os dados são públicos e não tem captcha!

Fernando_Correa1 · Março 31, 2021, 10:20pm

Dados de vacinação do governo federal

https://qsprod.saude.gov.br/extensions/DEMAS_C19Vacina/DEMAS_C19Vacina.html

maykongpedro · Março 31, 2021, 10:44pm

Opa, aproveitar a deixa!

No site da Epagri tem os preços diários praticados pelo mercado agrícola no estado de Santa Catarina. Preciso baixar os arquivos e fazer análises semanais.

No seguinte site eu entro escolho o mês:
https://cepa.epagri.sc.gov.br/index.php/produtos/mercado-agricola/precos-agricolas-diario-indice/

Depois disso abre a seguinte página (mês de março):
https://cepa.epagri.sc.gov.br/index.php/produtos/mercado-agricola/Precos-agricolas-diario-Mar-2021/

Cada dia é um link para uma base de dados, gostaria de poder baixar automaticamente todas essas bases, e não uma a uma haha (manual). A faxina e organização das mesmas é algo que com um pouco de prática consigo resolver, o problema é o download automático mesmo.

Se der boa, show. Não tenho certeza se entra dentro dos requisitos da live.

Muito obrigado!

Abraços.

felipefreitasbr · Junho 8, 2021, 6:05am

Um site que já foi pedido aqui e aparece em todos os fóruns sobre web scraping é o Whoscored. Eu já até consegui capturar algumas coisas usando Selenium, com Python, mas foi muito na tentativa e erro, a real é que eu não consigo entender qual técnica devo aplicar para esse tipo de site.

Aqui vai o link:
https://www.whoscored.com/Matches/1539006/Live/Brazil-Brasileirão-2021-Red-Bull-Bragantino-Bahia

Nessa página o que eu queria era, lá embaixo onde tem o campinho, clicando em ‘Chalkboard’ se vê vários pontinhos. Se eu clico em um deles, me traz a descrição completa da ação (ver imagem abaixo). Meu sonho é baixar os atributos de cada ponto aí (a localização + a descrição).

Tudo que é texto e número na página eu até consegui, simulando uma navegação com Selenium, mas simular esse clique no ponto não rolou. O problema desse meu “método”, é que não é escalável.

Athos · Junho 9, 2021, 4:36pm

Tentei mexer nesse site e bloquearam meu ip =( kkk. Acho que eles não querem ser scrapeados!

brunomioto · Agosto 26, 2021, 2:50am

Tentei raspar os dados do Eschmeyer’s Catalog of Fishes recentemente e falhei miseravelmente kkkk Esse é o site referência mundialmente para taxonomia de peixes.

O link do site é CAS - Eschmeyer's Catalog of Fishes:

Se desse pra raspar a tabela do CAS - Eschmeyer's Catalog of Fishes - Genera/Species by Family/Subfamily já seria uma mão na roda

brunomioto · Agosto 26, 2021, 4:04pm

Eu consegui puxar a tabela do Genera/Species by Family/Subfamily pelo Google Planilhas mesmo kkkk e posso arrumar os nomes por Ordem, Família e Subfamília já que todos usam o mesmo sufixo por grupo.
Planilha

O que seria interessante que não sei fazer, seria fazer a busca no site principal e retornar o texto como resultado.
Ex buscando “cichla kelberi”:

raphaelsaldanha · Agosto 26, 2021, 6:31pm

O OpenDataSUS é um repositório do CKAN. Tem uma API por trás que dá para usar alguns atalhos.

brunomioto · Agosto 26, 2021, 8:00pm

Estou tentando fazer uma função para puxar os dados históricos dos reservatórios da SABESP para implementar no pacote reservatoriosBR, que já divulguei aqui.
Por esse link é possível selecionar as variáveis a serem buscadas (datas e sistema ali que nesse caso é 0).

No entanto tenho muita dificuldade na transformação desses dados (em JSON) em um dataframe no R. São várias listas dentro de listas dentro de listas kkkkk
Alguém poderia ajudar?

Com a crise hídrica, seria bem importante utilizar esses dados em análises.
Caso alguém queira contribuir com o pacote, ajudando no desenvolvimento de funções etc, é só entrar em contato!

maykongpedro · Agosto 27, 2021, 12:32am

Bruno, olá!

Perdoe-me o engano, caso não seja o que estou entendendo, mas isso que você está tentando fazer não é algo semelhante ao pacote implementado pela @beatrizmilz?

beatrizmilz/mananciais: Base de dados sobre volume operacional em mananciais de abastecimento público na Região Metropolitana de São Paulo (SP - Brasil). (github.com)

Veja se encontra alguma dica nos códigos do pacote.

Abraços.

brunomioto · Agosto 27, 2021, 1:04am

Nossa, você tem razão! Não sabia da existência desse pacote. E hoje esbarrei nos dados da SABESP e pensei em implementar no reservatoriosBR. Mas esse pacote da Beatriz é perfeito! Vou inclusive citar na descrição do meu! Parabéns @beatrizmilz pelo trabalho!!!

hal-delaserna · Setembro 14, 2021, 2:19pm

Que tal esse. Apesar de já estar previsto no cronograma de Dados Abertos, minha curiosidade é no sentido de ver o modelo estatístico que irão propor

Thiago_Sousa · Setembro 16, 2021, 12:19am

Da pra organizar dos dados da plataforma de curriculum lattes e criar uma base de pontuação?

andresalerno · Setembro 16, 2021, 2:05am

Boa noite pessoal! Tudo bem?

Gostaria de deixar a seguinte sugestão de scraping:

https://www.cepea.esalq.usp.br/br/consultas-ao-banco-de-dados-do-site.aspx

Valeu!

Fernando_Correa1 · Setembro 16, 2021, 3:20pm

Olá, Bruno!

Doeu um pouco mais do que o esperado mas conseguimos!

github.com

curso-r/lives/blob/master/drafts/20210915_webscraping_ichthyology.R

#' Author: Athos e Fernando
#' Subject: Search Eschmeyer's Catalog

library(tidyverse)
library(magrittr)
library(httr)
library(rvest)
# Import -----------------------------------------------------------------------
url <- "https://researcharchive.calacademy.org/research/ichthyology/catalog/fishcatmain.asp"


# tentativa RVEST ---------------------------------------------------------
sessao_inicial <- rvest::session(url)
form_da_busca <- sessao_inicial %>% html_form() %>% first()

form_da_busca_submited <- form_da_busca %>%
  html_form_set(
    "tbl" = "Species",
    "contains" = "Salmo"
  )

This file has been truncated. show original

brunomioto · Setembro 16, 2021, 5:05pm

Caaaara, não acredito que perdi bem essa live! Infelizmente não consegui assistir

Acabei de assistir agora, e vocês mandaram bem demais!!! (Menos na parte relativa à biologia, mas estão perdoados kkkkk)

Vou tentar adaptar esse código com o que utilizamos e dou um retorno aqui também!
Mas a tibble ficou incrível!
E parabéns pela live, foi muito boa, aprendi muito!

Abraços

jtrecenti · Outubro 7, 2021, 9:56pm

O @Ariel_Levy está precisando de um código que baixa as tabelas desse site todos os dias!

https://sistemaswebb3-listados.b3.com.br/indexPage/theorical/IBOV?language=pt-br

Tanto a tabela diária quanto a trimestral.

O problema é que o link de download do CSV muda todo dia.

Eu montei esse código que funciona hoje, mas não sei no futuro

r <- httr::GET(
  "https://sistemaswebb3-listados.b3.com.br/indexProxy/indexCall/GetDownloadPortfolioTheorical/eyJpbmRleCI6IklCT1YiLCJsYW5ndWFnZSI6InB0LWJyIn0=",
  httr::config(ssl_verifypeer = FALSE)
)

httr::content(r, "text") |> 
  base64enc::base64decode() |> 
  readr::read_delim(delim = ";",
                    escape_double = FALSE, 
                    locale = readr::locale(encoding = "ISO-8859-2",decimal_mark = ","), 
                    trim_ws = TRUE, skip = 1) |> 
  janitor::clean_names() |> 
  dplyr::filter(!is.na(acao))

jtrecenti · Março 23, 2022, 12:58am

Site sugetido pelo Lucas Adriano, aluno da Curso-R

https://auditasus.com.br/destaques/covid19-braasil

rdornas · Maio 25, 2022, 11:00pm

Boa noite! Chance de ouro de fazer um web scraping legal e muito útil! Site da Agência Nacional de Mineração que fiscaliza as barragens de rejeito.

https://app.anm.gov.br/SIGBM/Publico/GerenciarPublico

A ideia seria conseguir raspar as informações que ficam ao clicar na lupinha, na extrema direita da linha de cada registro relativo a cada barragem!

brunomioto · Junho 14, 2022, 8:01pm

Um site do governo importante é a seção de Consultas Públicas, que muitas vezes são abertas e passam despercebidas pela população.

Como visto na reportagem da Agência Pública, o governo fez uma consulta pública de 30 de março a 29 de abril deste ano sobre um programa de fracking, extração de gás e óleo atualmente proibida no Brasil, (a ser lançado nesse mês de junho), e tivemos só 5 (??) contribuições.

O site de Consulta Pública em questão é o do Ministério de Minas e Energias, mas talvez se os outros seguirem o mesmo padrão, poderíamos só exportar.

Uma base de dados com título, subtitulo, prazo inicial e final, status e link já seria bem legal!

http://antigo.mme.gov.br/web/guest/servicos/consultas-publicas