Oi, gente! Boa tarde.
Como faço para saber as frequencias dentro de um data.frame?
Por exemplo, no data.frame imdb, que função eu uso para saber quantas vezes cada diretor aparece na coluna diretor?
Oi Thainara!
Existe mais de uma forma de fazer isso. Eu gosto de usar a função count()
do pacote {dplyr}
# Carregar pacotes --------------------------------------------------------
library(dplyr)
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>
#> filter, lag
#> The following objects are masked from 'package:base':
#>
#> intersect, setdiff, setequal, union
# Ler base IMDB -----------------------------------------------------------
imdb <- readr::read_csv("https://raw.githubusercontent.com/curso-r/main-r4ds-1/master/dados/imdb.csv")
#>
#> ── Column specification ────────────────────────────────────────────────────────
#> cols(
#> titulo = col_character(),
#> ano = col_double(),
#> diretor = col_character(),
#> duracao = col_double(),
#> cor = col_character(),
#> generos = col_character(),
#> pais = col_character(),
#> classificacao = col_character(),
#> orcamento = col_double(),
#> receita = col_double(),
#> nota_imdb = col_double(),
#> likes_facebook = col_double(),
#> ator_1 = col_character(),
#> ator_2 = col_character(),
#> ator_3 = col_character()
#> )
# Contar e reordenar do maior para o menor
imdb %>%
# Essa função agrupa pela coluna informada (diretor),
# e faz a contagem com n():
count(diretor) %>%
arrange(desc(n))
#> # A tibble: 1,813 x 2
#> diretor n
#> <chr> <int>
#> 1 <NA> 73
#> 2 Steven Spielberg 24
#> 3 Clint Eastwood 20
#> 4 Martin Scorsese 20
#> 5 Woody Allen 18
#> 6 Spike Lee 16
#> 7 Renny Harlin 14
#> 8 Ridley Scott 14
#> 9 Steven Soderbergh 14
#> 10 Tim Burton 14
#> # … with 1,803 more rows
Created on 2021-03-18 by the reprex package (v1.0.0)
3 curtidas