Fuzzy logic no R

Oi, pessoal. Tudo bem?

Eu preciso cruzar dois arquivos considerando as colunas de nome. Atualmente, se o nome não for idêntico, o cruzamento não rola. Ou seja, se a pessoa está como “JOSÉ DA SILVA” em um dataframe e como “JOSÉ MARIA DA SILVA” em outro, o R entende que são pessoas diferentes. Além de cruzar pelo nome, eu também estou cruzando pelos seis dígitos do meio do CPF (* * *.111.222- * * ).

Porém, eu gostaria de saber se há algo que possa identificar a compatibilidade entre as duas colunas de nome. Por exemplo, o R me diria que os nomes são quase idênticos. Ou que os nomes são 90% parecidos - e daí eu poderia chegar esses poucos casos na mão/no olho. Uma pessoa me falou que eu conseguiria resolver esse problema como “Fuzzy logic”. Eu pesquisei, mas não consegui achar muita coisa.

Obrigada.

1 Curtida

Gabriela,

Dê uma olhada no pacote {fuzzyjoin}. Ele têm exatamente as funcionalidades que você precisa.

1 Curtida