Início » Automação de Pipelines no GCP com Apache Airflow
Um desafio no dia a dia de engenharia de dados pode ser lidar com a criação repetitiva de pipelines. Muitas vezes, diferentes análises

precisam dos mesmos dados de origem, seguindo a mesma estrutura de tabelas e as mesmas regras de transformação. Ainda assim, cada novo pipeline tradicionalmente exige que alguém escreva manualmente DAGs no Airflow, queries SQL para bronze, silver e gold, além de toda a configuração necessária.
Isso consome tempo, gera retrabalho e aumenta o risco de inconsistências entre projetos.
Diante desse cenário, exploramos uma forma de automatizar ao máximo esse processo. A solução uniu três peças principais:
No início, a necessidade era clara:
Ou seja, o trabalho era repetitivo, previsível e sujeito a erro humano.
Ao identificar isso, buscamos responder a uma pergunta simples:
se a estrutura já é conhecida, por que não automatizar a criação dos pipelines?
A escolha do Cloud Composer foi natural, já que ele oferece uma versão gerenciada do Apache Airflow dentro do Google Cloud. Isso nos permitiu evitar a sobrecarga de manter a infraestrutura do Airflow manualmente, ganhando benefícios como:
Essa base sólida tornou possível focar na lógica de automação, sem perder tempo com camadas de infraestrutura.
Dentro do Airflow, um recurso foi crucial: os sensores.
Eles permitem que uma tarefa fique em “espera” até que uma condição seja atendida. Entre os vários tipos disponíveis, o que mais utilizamos foi o ExternalTaskSensor, que nos permitia:
Esse tipo de mecanismo trouxe confiabilidade ao processo, essencial quando se está lidando com múltiplos fluxos simultâneos.
O passo seguinte foi transformar a criação dos pipelines em algo parametrizável.
Em vez de escrever DAGs manualmente, criávamos um YAML base, contendo:
Uma função consumia esse YAML e automaticamente:
Na prática, bastava um arquivo de configuração para ter um pipeline completo — da ingestão bruta até as métricas analíticas.
As funções SQL seguiam sempre o mesmo padrão:
Esse modelo nos trouxe eficiência imediata:
Apesar do avanço, havia uma limitação: os YAMLs ainda precisavam ser montados por um engenheiro de dados. Para quem não dominava a linguagem ou não estava acostumado com a estrutura, isso ainda era uma barreira.
Foi então que demos um passo além: construímos uma interface em Streamlit, hospedada no App Engine.
Essa interface permitia que usuários menos técnicos preenchessem parâmetros em uma tela amigável, como:
A partir dessas informações, o sistema gerava automaticamente o YAML correspondente e disparava o deploy no Airflow.
Na prática, analistas e outros perfis fora da engenharia puderam criar seus próprios pipelines, sem abrir mão da padronização e da governança.
Foi um avanço significativo em democratização do acesso e em redução da dependência do time de engenharia.
Essa abordagem se mostrou extremamente eficaz em cenários de padronização:
Por outro lado, não é uma solução universal.
A combinação de Airflow no GCP, sensores para orquestração confiável e automação via YAML provou ser uma solução poderosa para acelerar entregas e reduzir erros.
Ao adicionar uma camada de interface com Streamlit + App Engine, demos o próximo passo: levamos a criação de pipelines para um público mais amplo, sem abrir mão da qualidade e da governança.
Esse modelo não resolve tudo, mas quando aplicado no contexto certo, transforma a forma como pipelines são criados e mantidos. Mais do que ganho técnico, é uma forma de escalar a capacidade do time e liberar engenheiros para se dedicarem a desafios mais estratégicos.
Na Onetopia, respeitamos a sua privacidade e estamos comprometidos em proteger os dados pessoais que você compartilha conosco.
Coleta e Uso de Dados
* Podemos coletar informações pessoais fornecidas voluntariamente por você (como nome, e-mail, telefone e empresa) ao preencher formulários, entrar em contato ou utilizar nossos serviços.
* As informações são utilizadas exclusivamente para fins comerciais legítimos, como atendimento, comunicação, envio de propostas e melhoria de nossos serviços.
* Não compartilhamos dados pessoais com terceiros, exceto quando necessário para cumprimento de obrigações legais ou contratuais.
Quando falamos em Dados Pessoais, entendemos que todos os tratamentos realizados pela Onetopia devem respeitar três princípios fundamentais:
* Ética no uso das informações;
* Segurança para proteger os titulares;
* Transparência em cada interação.
Segurança da Informação
Escutamos dados de diferentes formas, digitais e analógicas, sempre em conformidade com esta Política de Privacidade.
Por meio de nossas tecnologias, podemos relacionar dados coletados em diferentes canais, assegurando uma visão integrada e conferindo a você maior governança sobre os dados tratados.
Caso identifique qualquer uso indevido de dados, descumprimento desta política ou deseje exercer seus direitos, entre em contato pelo e-mail:
📧 denuncia@onetopia.com.br