Sobre o erro que você obteve ao executar o código do post: a mensagem de erro diz que o arquivo que você quer abrir não existe. O R está procurando um arquivo na sua pasta de downloads. Esse arquivo não está nesse caminho, portanto você não consegue abrir um arquivo que não existe
Sobre as tabelas que aparecem esquisitas, é porque não está abrindo o arquivo certo. Esse link encaminha para uma página em HTML do google drive, onde precisa apertar o botão para fazer o download da base. Ao tentar o código que você colocou, o que eu obtive foi a tentativa de transformar aquele HTML em um dataframe.
Resposta!
Dito isso… vamos lá na forma de resolver
A forma que eu encontrei é fazendo o download do arquivo, e abrindo, e depois sorteando as 200 linhas. Atenção que o código abaixo apresenta alguns pacotes que precisam ser instalados para que funcione, como: fs, googledrive, vroom, dplyr, e o magrittr.
# url do google drive
url <- "https://drive.google.com/file/d/1BYKgmFxSaJgT8JprVAI1AAsH6ZJTOBFo/view"
# criar a pasta onde faremos o download
fs::dir_create("data")
# nome do arquivo para fazer download
nome_arquivo <- "data/socio.csv.gz"
# fazer download do arquivo
# SERÁ NECESSÁRIO AUTENTICAR!! Atenção nessa etapa.
googledrive::drive_download(url, nome_arquivo)
# A partir daqui, tem o arquivo para seguir com o post.
socio <- vroom::vroom(nome_arquivo)
socio
# > socio <- vroom::vroom(nome_arquivo)
# Rows: 26,188,771
# Columns: 10
# Delimiter: ","
# chr [7]: cnpj, nome_socio, cnpj_cpf_do_socio, codigo_qualific...
# dbl [2]: identificador_de_socio, percentual_capital_social
# date [1]: data_entrada_sociedade
# A função sample_n() serve para obter X linhas aleatórias.
sorteio_200_linhas <- socio %>%
dplyr::sample_n(200)
# # A tibble: 200 x 10
# cnpj identificador_d… nome_socio cnpj_cpf_do_soc…
# <chr> <dbl> <chr> <chr>
# 1 21557… 2 VERA LUCI… ***148546**
# 2 17633… 2 WALTER LU… ***492438**
# 3 02522… 2 MARIA DA … ***860348**
# 4 15596… 2 PAULO CES… ***878689**
# 5 21650… 2 WILMA FRA… ***077077**
# 6 15358… 2 MARLENE N… ***735039**
# 7 34275… 2 LETICIA V… ***118731**
# 8 08033… 2 ANDERSON … ***048549**
# 9 03889… 2 JORGE MAR… ***283809**
# 10 12286… 2 RAMIRO FE… ***675951**
# # … with 190 more rows, and 6 more variables:
# # codigo_qualificacao_socio <chr>,
# # percentual_capital_social <dbl>,
# # data_entrada_sociedade <date>,
# # cpf_representante_legal <chr>,
# # nome_representante_legal <chr>,
# # codigo_qualificacao_representante_legal <chr>
# >
Dicas para fazer perguntas
Algumas dicas para as próximas vezes que for escrever perguntas:
Você citou um post. Seria mais fácil já deixar o link do post junto com a pergunta, assim quem responde não precisa ir pesquisar onde ele está.
Use as marcações em markdown para formatar o texto de uma forma que faça sentido. Você escreveu a pergunta como um texto marcado como título e aí ficou escrito de forma gigante. Não é necessário usar a marcação de título para o texto todo, use para delimitar seções.
A URL do google drive eu encontrei no texto da sua pergunta inicial.
Cada arquivo .csv.gz tem um link para ser baixado. E aparentemente também estão na sua própria pergunta.
Trailler:
Header:
Empresa:
Empresa sócia:
A pergunta inicial era de importação de base de dados. Já essa nova pergunta é sobre web scraping. Recomendo criar um novo tópico para perguntar essa nova pergunta! Assim fica mais organizado.
Refiz do jeito que me ensinou e consegui baixar e ver todos os arquivos sobre CNPJ no goggledrive do Turicas.
Vou continuar explorando e mais prá frente retomo aquela pergunta sobre webscraping.