Conceito de Tidy - Valores Lógicos

Estou fazendo o curso de Faxina de Dados e tive uma dúvida sobre o conceito de tidy para valores lógicos.

Uma dos parâmetros para que uma base seja conseidera tidy, é que os valores da tabela deveme estar nos formatos corretos.

Um número deve estar em uma coluba do tipo numeric, nao character.
Uma data deve estar em uma coluna date e não numeric.
Um vazio de informação deve ser um NA e não um character escrito “vazio” ou “”.

E para valores lógicos?

Se eu quero fazer uma coluna Vascaíno com a informação se determinada pessoa torce para o Vasco da Gama.

o que é tidy?

-Coluna “vasco” com valores TRUE e FALSE
-coluna “vasco” com valores “vascaíno” e “não é vascaíno”

eu imagino que por ser uma coluna lógica, o true or false seja melhor. mas, as vezes, se a coluna nao for clara, as pessoas não saberão qual a informação está inscrita naquela tabela.

Mais uma dúvida:

Numa coluna de númericos em que não há negativos, o que é tidy?

0 ou NA?

Oi, Marcelo

Sobre a pergunta do Vasco.

Não existe uma regra explícita para esse tipo de situação. A definição de base tidy se refere basicamente a estrutura das linhas e colunas: cada linha uma observação, cada coluna uma variável, cada tabela um tipo de unidade amostral.

Maas, como o conceito de dados tidy e do próprio manifesto tidy orbitam em torno da simplicidade, legibilidade e reprodutibilidade, você pode considerar tidy qualquer escolha que siga essas premissas.

Nesse caso, eu prefiro vascaíno/não vascaíno porque é mais fácil de ler e já estará bem formatado quando você gerar um gráfico ou tabela. Ganha legebilidade, tempo e reprodutibilidade (a não ser que você tenha em algum lugar o que significa o TRUE/FALSE).

Sobre os números negativos

Se uma coluna só deveria ter valores positivos, então isso nuna deveria ser uma preocupação, pois ela nunca terá valores negativos e os NAs representarão apenas “valores omissos”. Maas se ela acabar possuindo valores negativos, então não é mais uma questão de tidy/messy e sim de erro. É preciso primeiro verificar porque vieram números negativos e, encontrando a causa, definir se é melhor (1) tirar as linhas da base, (2) deixar esses valores NAs, (3) eventualmente corrigir esses valores ou (4) atribuir um valor fixo (como o zero). Veja a depender da escolha, podemos interpretar diferente os valores dessas colunas e, consequentemente, mudar a nossa conclusão final. Por isso é um passo bem importante de faxina de dados.

Abs,

2 Curtidas