Estava pensando aqui em como fazer isso e acredito que seria bem útil.
Bom, estou estudando inglês pelo Anki (um aplicativo de memorização) e uma forma interessante de estudar é assistindo palestras do TED Talks. Nesse sentido, as palestras mais famosas possuem a transcrição em inglês.
De modo a estudar com maior eficácia, meu objetivo é (mas não faço ideia de como fazer, rs) realizar um scraping do site que leve a transcrição para o R. A título de exemplo, tenho essa palestra a seguir:
No link temos acesso à palestra e a transcrição fica logo abaixo. Meu objetivo é ter uma coluna da seguinte forma:
Essa acima eu fiz da maneira rústica, isto é, copiando, salvando no excel, abrindo no R e assim por diante. No entanto, será que é possivel fazer tudo isso dentro do próprio R?
Olá, Rafael. O código para extrair a transcrição de um link é bastante simples Segue o meu código usando como exemplo o vídeo que você passou:
library(magrittr)
"https://www.ted.com/talks/rita_pierson_every_kid_needs_a_champion/transcript" %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[contains(@class, 'Grid--with-gutter')]") %>%
purrr::map_chr(xml2::xml_text) %>%
stringr::str_squish() %>%
dplyr::tibble(speech = .)
#> # A tibble: 54 x 1
#> speech
#> <chr>
#> 1 "I have spent my entire life either at the schoolhouse, on the way to the sc…
#> 2 "(Laughter)"
#> 3 "Both my parents were educators, my maternal grandparents were educators, an…
#> 4 "James Comer says that no significant learning can occur without a significa…
#> 5 "A colleague said to me one time, \"They don't pay me to like the kids. They…
#> 6 "Well, I said to her, \"You know, kids don't learn from people they don't li…
#> 7 "(Laughter)"
#> 8 "(Applause)"
#> 9 "She said, \"That's just a bunch of hooey.\""
#> 10 "And I said to her,"
#> # … with 44 more rows
@marrut, é possível descobrir isso olhando o código HTML da página. Por exemplo, abra a página que deseja explorar, acesse o código HTML utilizando as ferramentas de desenvolvimento (no Chrome é possível acessar com o atalho CTRL SHIFT C), e navegue com o mouse sobre o elemento no site que você quer acessar. Isso ficará “destacado” no HTML, e você pode observar as classes por lá. Exemplo: