Web scraping de comentários em reportagem do Extra

VittorioTalone · Janeiro 20, 2024, 4:33pm

Olá, amigos/as.

Estou fazendo raspagem de notícias a respeito de milícias no jornal Extra. Quero, inclusive, reter os comentários que possam ter sido feitos por leitores nas páginas das reportagens.

Como exemplo, coloco aqui a url “https://extra.globo.com/rio/casos-de-policia/noticia/2024/01/chefe-da-milicia-em-queimados-e-tres-comparsas-sao-presos.ghtml”, que tem apenas 1 comentário.

Estou rodando o seguite:

library(‘rvest’,‘dplyr’,‘stringr’)

url_noticia ← “https://extra.globo.com/rio/casos-de-policia/noticia/2024/01/chefe-da-milicia-em-queimados-e-tres-comparsas-sao-presos.ghtml”

para o título

node_titulo ← html_nodes(pagina, xpath = ‘//*[@id=“extra”]/section/div[2]/div[1]/h1’)
titulo ← html_text(node_titulo) |>
str_squish()
print(titulo)

para subtítulo

node_subtitulo ← html_nodes(pagina, xpath = “//h2[@class = ‘content-head__subtitle’]”)
subtitulo ← html_text(node_subtitulo) %>%
str_squish()
print(subtitulo)

Bom, vou fazer isso com os links e os textos das reportagens também.
Pois bem, tentei várias possibilidades na parte dos comentários, mas sempre volta como character(0). Tentei rodar isso, por exemplo:

node_comentario ← html_nodes(pagina, xpath = “//*[@id = ‘boxComentarios__body’]”)
comentario ← html_text(node_comentario) |>
str_squish()
print(comentario)

Enfim, a minha intenção é conseguir achar isso para depois fazer uma função iterando os resultados de uma pesquisa sobre milícia na página. Com “for (i in 1:30){ print(i)…” etc.

É isso. Desculpem-me se não consegui ser muito claro com a dúvida e agradeço pela atenção, pessoal ! Abraços.