[SparklyR] Atualização incremental de arquivo parquet com substituição de partição já existente

lbsantos · Julho 23, 2024, 1:15pm

Olá pessoal. Gostaria de construir um pipeline de dados com o SparklyR mas estou esbarrando em um problema.

Meu desejo é que seja um processo que insira dados novos e substitua os dados antigos. Utilizando o código abaixo ele não consegue entender que ele deve somente substituir a partição e acaba substituindo todos os arquivos.

spark_write_parquet(
dataframe,
path = ‘/dados/arquivo.parquet’,
mode = ‘overwrite’,
partition_by = ‘particao1’
)

Hoje utilizo o modo append e rezo para que nunca precise sobrescrever uma partição individualmente kkk.

No pandas é possível fazer este processo através do código abaixo. Queria poder fazer isto em R e melhor ainda se for com o SparklyR:

df.to_parquet(dataframe, partition_cols=[‘particao1’], existing_data_behavior=‘delete_matching’ )

Desde já agradeço.

Abraços!