Login no Instagram para webscraping

Pessoal, boa tarde!

Estou tentando fazer webscraping de uns dados do Instagram, mas depois de poucos segundos ele já me barra e tenho que esperar horas (as vezes um dia) para tentar de novo.

Nesse tempo, eu consigo pegar pouquíssima informação.

Como o erro exibido é “HTTP status was '401 Unauthorized”, pensei que pudesse ser por falta de login.

E quando tento acessar o link via browser, recebo:

message Aguarde alguns minutos antes de tentar novamente.
require_login true
status fail

Vocês sabem se é possível fazer o login?

O json do instagram que estou usando para pegar os dados, possui estes campos:

pars <- list(
   username = "usuario",
   password = "senha"
)

login <- httr::POST("https://www.instagram.com", body = pars)

url_ini <- "https://www.instagram.com/veganeabessa/?__a=1&__d=11"
#buscando
document_ini <- jsonlite::fromJSON(txt = url_ini)

Captura de tela de 2023-01-19 15-37-03

As opções que achei por aí usavam a API do instagram, mas esta API hoje em dia só permite pegar dados do próprio usuário :frowning:

obs: peguei um perfil apenas pra teste.

É permitido scrapear o instagram?

https://instagram.com/robots.txt

1 curtida

Acho que é bom pesquisar nos termos de uso se é permitido: https://help.instagram.com/581066165581870

Pesquisando “raspagem + instagram” apareceu essa noticia aqui:
https://www.tecmundo.com.br/seguranca/241444-meta-processa-raspadores-dados-facebook-do-instagram.htm

1 curtida

Tem razão, Bea! Foi mal.

Tive a ideia e me empolguei aqui, já fui fazer.