Oi gente, tudo bem?
Queria saber como posso combinar duas funções no R pra analisar bases de dados da Secretaria de Segurança Pública de São Paulo.
Eles divulgam (ativamente no site deles ou via Lei de Acesso à Informação) planilhas com dados de boletins de ocorrência. São dados brutos e as planilhas nunca trazem um BO por linha. Pela metodologia deles, cada linha representa “os dados de uma pessoa, natureza ou objeto relacionado no boletim”. Vou das dois exemplos:
-
Se eu fizer um BO dizendo que tive DOIS celulares furtados, meu BO vai aparecer em duas linhas diferentes (uma referente a cada celular, a mudança principal vai ser, por exemplo, na coluna “MARCA”).
-
Se eu registrar um BO de ameaça indicando o autor do crime, esse BO também vai aparecer em duas linhas diferente, uma incluindo meus dados nas colunas “SEXO”, “IDADE”, “DESCR_TIPO_PESSOA” (sendo que eu estarei nessa coluna como “vítima”) e outra com os dados do autor (e nessa coluna ele vai ser identificado como “autor”).
A metodologia da SSP indica que, pra eu remover as duplicatas dos boletins e chegar ao número total de boletins, eu preciso aplicar a função do Excel de remover as duplicatas nas seguintes colunas: “ID_DELEGACIA”, “ANO_BO” e “NUM_BO”. Daí ele remove todas as linhas duplicadas quando achar uma linha onde os valores dessas três colunas sejam iguais a outra linha dessas.
O que eu queria saber como fazer é: consigo usar o R pra fazer essa mesma limpeza, mas escolhendo QUAL linha apagar? No meu caso atual, eu tenho uma planilha de crimes contra pessoas, e eu quero deixar apenas as linhas referentes às VÍTIMAS. Então queria remover as duplicatas seguindo a orientação da SSP, mas deixando as linhas onde a coluna DESCR_TIPO_PESSOA indica o valor “Vítima”.
Alguém saberia como posso fazer essa operação no RStudio?
Obrigada desde já!