Scraping da Câmara Municipal de SP

Pessoal, estou com um desafio aqui num deadline curto, não sei se conseguem me ajudar.

Preciso raspar esse site aqui: https://splegisconsulta.camara.sp.gov.br/Pesquisa/IndexProjeto

O que eu preciso: dos projetos de lei que foram PROMULGADOS entre 2001 e 2020.

O mecanismo de busca do site só permite buscas de 5 em 5 anos.

O meu ídolo Julio Trecenti já fez uma parte do código: https://gist.github.com/jtrecenti/c7188dd43d0bdf0208b168b03d7e6894

Acho que pro que eu preciso os critérios de consulta seriam os seguintes:

Sigla do Projeto: PL
Número / Ano: Só o campo do ano
Somente projetos promulgados: TRUE

bd <- list(
COD_MTRA_LEGL = “PL”,
FILTRO_COD_PCSS_CMSP_INI = “”,
FILTRO_ANO_PCSS_CMSP_INI = “2001”,
FILTRO_COD_PCSS_CMSP_FIM = “”,
FILTRO_ANO_PCSS_CMSP_FIM = “2005”,
LDRE_COD = “=”,
LDRE_NRO = “”,
LDRE_ANO = “”,
**DT_LEIT_INI = “”, **
DT_LEIT_FIM = “”,
TRAMIT_ONLY = “false”,
PROMUL_ONLY = “TRUE”,
COD_TIPO_MOTIVO_TRAMITACAO = “”,
TXT_OBSERVACAO_TRAMITACAO = “”,
COD_TIPO_VETO = “”,
VOTACAO = “”
)

O resultado da busca tem os seguintes campos:
Projeto
Emenda
Norma
Palavras-chaves
Promoventes

O problema é que são muitas páginas de resultados. E sou um zero à esquerda quando o assunto é scraping rs.

Alguém saberia como me ajudar, por gentileza?

2 Curtidas

Oi, Carol.

Imagino que você já tenha olhado, mas escrevo aqui na tentativa de ajudar. Achei na seção de dados abertos da CMSP um link para pegar algumas informações via API, mas não tenho certeza se tem tudo que você deseja.

Oi Gabi! Esse aqui até chega perto: http://splegisws.camara.sp.gov.br/ws/ws2.asmx/ProjetosPorAno

Ele indica o ano e o tipo (estamos buscando só o que é PL). Mas ele não indica se foi ou não promulgado…

Anarina, pra mim não ficou tão clara a sua dúvida. Você está com dificuldade em baixar ou em parsear os HTMLs? Dando uma olhada rápida no seu código, notei que esse conjunto de parâmetros não funciona.

Acho que você quer isso aqui:

bd <- list(
  COD_MTRA_LEGL = 1,
  FILTRO_COD_PCSS_CMSP_INI = "",
  FILTRO_ANO_PCSS_CMSP_INI = 2001,
  FILTRO_COD_PCSS_CMSP_FIM = "",
  FILTRO_ANO_PCSS_CMSP_FIM = 2005,
  LDRE_COD = "",
  LDRE_NRO = "",
  LDRE_ANO = "",
  DT_LEIT_INI = "",
  DT_LEIT_FIM = "",
  TRAMIT_ONLY = "false",
  PROMUL_ONLY = "true",
  COD_TIPO_MOTIVO_TRAMITACAO = "",
  TXT_OBSERVACAO_TRAMITACAO = "",
  COD_TIPO_VETO = "",
  VOTACAO = ""
)