Member-only story

APACHE BEAM E PYTHON: Do Batch ao Streaming em poucas linhas

É possivel transformar meu script de uma pipeline em Batch para Streaming, sem dor de cabeça? É SIM, no Apache Beam (rimou haha)

Cássio Bolba
2 min readJan 8, 2021

Criei um script muito simples no Apache Beam, para uma tarefa em Batch, usando o Direct Runner do Apache Beam, ou seja, executando localmente (não numa engine Spark ou Dataflow). Os dados consumidos são dados de voos, contendo diversas informações, como numero do voos, origem, destindo, atraso na partida, atraso na chagada…

Então, criei uma rotina que filtrasse apenas os registro com atraso positivo na chegada, na coluna 8 (iniciando do índice 0), e o respectivo Aeroporto, na coluna 4. O Script ficou assim:

Deixa eu explicar ele um pouquinho:

linhas 5 e 6 = Definição da minha pipeline como P1
linhas 8 e 9 = Definição do meu arquivo key.json como a conta a ser autenticada no google
Linha 13 = Importar arquico de Bucket no GCP
Linha 14 = Separar registros por ,
Linha 15 = Filtrar a coluna 8 com…

--

--

Cássio Bolba
Cássio Bolba

Written by Cássio Bolba

Senior Data Engineer | Udemy Teacher | Expat in Germany | Mentor -> https://linktr.ee/cassiobolba

No responses yet