Web scraping e pesquisa acadêmica (termos de uso)

Pessoal, boa tarde

Primeiramente, eu sou o Vinícius, aluno de mestrado em Turismo na EACH, sou iniciante com relação à questões envolvendo web scraping e fiquei com algumas dúvidas que talvez alguém com mais experiência já tenha passado por algo similar ou mesmo sabem me orientar como eu posso obter as respostas.

Eu gostaria de saber que riscos ou questões que devemos tomar cuidado ao realizar a técnica de web scraping para coleta de dados em pesquisas científicas. Pelo que estou lendo, não há uma clareza ou precisão de algumas questões, mas para evitar problemas futuramente eu queria saber como eu faço para tentar entender melhor estes riscos de fazer robôs que extraem dados públicos da internet.

Entendo que fazer muitas requisições a um site não é o indicado e além disso tratar os dados com “anonimado”, sem detalhes que identifiquem indivíduos ou pessoas (física ou jurídica) é o melhor, e no meu caso eu já gostaria mesmo de coletar dados sem identificar quem é o indivíduo relaciona às informações coletadas.

Na minha pesquisa especificamente eu quero utilizar com plataforma de dados o TripAdvisor, e tenho a princípio 2 grandes dúvidas:

  1. se eu construir robôs para fazer o scraping, o site (por exemplo, o trip advisor) vai derrubar nossa requisição e impedir minha coleta? tem algum parâmetro ou tem como eu descobrir este tipo de regra por site?

  2. mesmo se eles não barrarem nossa extração de informação, eu tenho o direito de coletar estes dados que são de propriedade da plataforma (exemplo, do trip advisor)?

Bom, agradeço a atenção e apoio, pois como disse sou novo neste universo e toda ajuda é bem-vinda. Abraços!

Vinícius

Vinícius, a resposta para a sua pergunta é o famoso depende:

  1. Cada site tem uma política diferente para robôs. Alguns não se importam e outros tentam bloquear agressivamente qualquer computador fazendo raspagem. Nem sempre é possível saber isso antes de fazer o scraping.

  2. A questão legal sobre o uso dos dados é mais complicada e não sou advogado. Se você pensa em usar esses dados para um trabalho comum da faculdade, acho que será difícil você ter problemas, mas se você pensa em coletá-los e publicar algum artigo usando eles como base, talvez você precise de autorização da empresa.

Muito obrigado pelo retorno Caio!

Estou mesmo com a intenção de entrar em contato e pedir autorização para a plataforma, pois meu orientador vislumbra uma publicação internacional.

Eu não tinha essa noção desta questão antes, enfim, vamos que vamos…

Abraços

Vinícius