Estudando inglês com R

Olá, pessoal. Tudo bem?

Estava pensando aqui em como fazer isso e acredito que seria bem útil.

Bom, estou estudando inglês pelo Anki (um aplicativo de memorização) e uma forma interessante de estudar é assistindo palestras do TED Talks. Nesse sentido, as palestras mais famosas possuem a transcrição em inglês.

De modo a estudar com maior eficácia, meu objetivo é (mas não faço ideia de como fazer, rs) realizar um scraping do site que leve a transcrição para o R. A título de exemplo, tenho essa palestra a seguir:

No link temos acesso à palestra e a transcrição fica logo abaixo. Meu objetivo é ter uma coluna da seguinte forma:

image

Essa acima eu fiz da maneira rústica, isto é, copiando, salvando no excel, abrindo no R e assim por diante. No entanto, será que é possivel fazer tudo isso dentro do próprio R?

Muito obrigado.

Olá, Rafael. O código para extrair a transcrição de um link é bastante simples :slight_smile: Segue o meu código usando como exemplo o vídeo que você passou:

library(magrittr)

"https://www.ted.com/talks/rita_pierson_every_kid_needs_a_champion/transcript" %>%
  xml2::read_html() %>%
  xml2::xml_find_all("//div[contains(@class, 'Grid--with-gutter')]") %>%
  purrr::map_chr(xml2::xml_text) %>%
  stringr::str_squish() %>%
  dplyr::tibble(speech = .)
#> # A tibble: 54 x 1
#>    speech                                                                       
#>    <chr>                                                                        
#>  1 "I have spent my entire life either at the schoolhouse, on the way to the sc…
#>  2 "(Laughter)"                                                                 
#>  3 "Both my parents were educators, my maternal grandparents were educators, an…
#>  4 "James Comer says that no significant learning can occur without a significa…
#>  5 "A colleague said to me one time, \"They don't pay me to like the kids. They…
#>  6 "Well, I said to her, \"You know, kids don't learn from people they don't li…
#>  7 "(Laughter)"                                                                 
#>  8 "(Applause)"                                                                 
#>  9 "She said, \"That's just a bunch of hooey.\""                                
#> 10 "And I said to her,"                                                         
#> # … with 44 more rows

Created on 2020-09-13 by the reprex package (v0.3.0)

1 Curtida

Obrigado, Caio! Muito legal. :call_me_hand:

1 Curtida