Pessoal, boa tarde
Primeiramente, eu sou o Vinícius, aluno de mestrado em Turismo na EACH, sou iniciante com relação à questões envolvendo web scraping e fiquei com algumas dúvidas que talvez alguém com mais experiência já tenha passado por algo similar ou mesmo sabem me orientar como eu posso obter as respostas.
Eu gostaria de saber que riscos ou questões que devemos tomar cuidado ao realizar a técnica de web scraping para coleta de dados em pesquisas científicas. Pelo que estou lendo, não há uma clareza ou precisão de algumas questões, mas para evitar problemas futuramente eu queria saber como eu faço para tentar entender melhor estes riscos de fazer robôs que extraem dados públicos da internet.
Entendo que fazer muitas requisições a um site não é o indicado e além disso tratar os dados com “anonimado”, sem detalhes que identifiquem indivíduos ou pessoas (física ou jurídica) é o melhor, e no meu caso eu já gostaria mesmo de coletar dados sem identificar quem é o indivíduo relaciona às informações coletadas.
Na minha pesquisa especificamente eu quero utilizar com plataforma de dados o TripAdvisor, e tenho a princípio 2 grandes dúvidas:
-
se eu construir robôs para fazer o scraping, o site (por exemplo, o trip advisor) vai derrubar nossa requisição e impedir minha coleta? tem algum parâmetro ou tem como eu descobrir este tipo de regra por site?
-
mesmo se eles não barrarem nossa extração de informação, eu tenho o direito de coletar estes dados que são de propriedade da plataforma (exemplo, do trip advisor)?
Bom, agradeço a atenção e apoio, pois como disse sou novo neste universo e toda ajuda é bem-vinda. Abraços!
Vinícius