Web Scraping Qualquer Coisa

brunomioto · Agosto 27, 2021, 1:04am

Nossa, você tem razão! Não sabia da existência desse pacote. E hoje esbarrei nos dados da SABESP e pensei em implementar no reservatoriosBR. Mas esse pacote da Beatriz é perfeito! Vou inclusive citar na descrição do meu! Parabéns @beatrizmilz pelo trabalho!!!

hal-delaserna · Setembro 14, 2021, 2:19pm

Que tal esse. Apesar de já estar previsto no cronograma de Dados Abertos, minha curiosidade é no sentido de ver o modelo estatístico que irão propor

Thiago_Sousa · Setembro 16, 2021, 12:19am

Da pra organizar dos dados da plataforma de curriculum lattes e criar uma base de pontuação?

andresalerno · Setembro 16, 2021, 2:05am

Boa noite pessoal! Tudo bem?

Gostaria de deixar a seguinte sugestão de scraping:

https://www.cepea.esalq.usp.br/br/consultas-ao-banco-de-dados-do-site.aspx

Valeu!

Fernando_Correa1 · Setembro 16, 2021, 3:20pm

Olá, Bruno!

Doeu um pouco mais do que o esperado mas conseguimos!

github.com

curso-r/lives/blob/master/drafts/20210915_webscraping_ichthyology.R

#' Author: Athos e Fernando
#' Subject: Search Eschmeyer's Catalog

library(tidyverse)
library(magrittr)
library(httr)
library(rvest)
# Import -----------------------------------------------------------------------
url <- "https://researcharchive.calacademy.org/research/ichthyology/catalog/fishcatmain.asp"


# tentativa RVEST ---------------------------------------------------------
sessao_inicial <- rvest::session(url)
form_da_busca <- sessao_inicial %>% html_form() %>% first()

form_da_busca_submited <- form_da_busca %>%
  html_form_set(
    "tbl" = "Species",
    "contains" = "Salmo"
  )

This file has been truncated. show original

brunomioto · Setembro 16, 2021, 5:05pm

Caaaara, não acredito que perdi bem essa live! Infelizmente não consegui assistir

Acabei de assistir agora, e vocês mandaram bem demais!!! (Menos na parte relativa à biologia, mas estão perdoados kkkkk)

Vou tentar adaptar esse código com o que utilizamos e dou um retorno aqui também!
Mas a tibble ficou incrível!
E parabéns pela live, foi muito boa, aprendi muito!

Abraços

jtrecenti · Outubro 7, 2021, 9:56pm

O @Ariel_Levy está precisando de um código que baixa as tabelas desse site todos os dias!

https://sistemaswebb3-listados.b3.com.br/indexPage/theorical/IBOV?language=pt-br

Tanto a tabela diária quanto a trimestral.

O problema é que o link de download do CSV muda todo dia.

Eu montei esse código que funciona hoje, mas não sei no futuro

r <- httr::GET(
  "https://sistemaswebb3-listados.b3.com.br/indexProxy/indexCall/GetDownloadPortfolioTheorical/eyJpbmRleCI6IklCT1YiLCJsYW5ndWFnZSI6InB0LWJyIn0=",
  httr::config(ssl_verifypeer = FALSE)
)

httr::content(r, "text") |> 
  base64enc::base64decode() |> 
  readr::read_delim(delim = ";",
                    escape_double = FALSE, 
                    locale = readr::locale(encoding = "ISO-8859-2",decimal_mark = ","), 
                    trim_ws = TRUE, skip = 1) |> 
  janitor::clean_names() |> 
  dplyr::filter(!is.na(acao))

jtrecenti · Março 23, 2022, 12:58am

Site sugetido pelo Lucas Adriano, aluno da Curso-R

https://auditasus.com.br/destaques/covid19-braasil

rdornas · Maio 25, 2022, 11:00pm

Boa noite! Chance de ouro de fazer um web scraping legal e muito útil! Site da Agência Nacional de Mineração que fiscaliza as barragens de rejeito.

https://app.anm.gov.br/SIGBM/Publico/GerenciarPublico

A ideia seria conseguir raspar as informações que ficam ao clicar na lupinha, na extrema direita da linha de cada registro relativo a cada barragem!

brunomioto · Junho 14, 2022, 8:01pm

Um site do governo importante é a seção de Consultas Públicas, que muitas vezes são abertas e passam despercebidas pela população.

Como visto na reportagem da Agência Pública, o governo fez uma consulta pública de 30 de março a 29 de abril deste ano sobre um programa de fracking, extração de gás e óleo atualmente proibida no Brasil, (a ser lançado nesse mês de junho), e tivemos só 5 (??) contribuições.

O site de Consulta Pública em questão é o do Ministério de Minas e Energias, mas talvez se os outros seguirem o mesmo padrão, poderíamos só exportar.

Uma base de dados com título, subtitulo, prazo inicial e final, status e link já seria bem legal!

http://antigo.mme.gov.br/web/guest/servicos/consultas-publicas