Pipelines de Dados
Fundamentos e padrões para construção de pipelines de dados confiáveis.
Índice
O que é um Pipeline de Dados?
Um pipeline de dados é um conjunto de processos que movem dados de uma ou mais fontes para um destino, aplicando transformações ao longo do caminho.
1
2
Fonte → Extração → Transformação → Carga → Destino
(S3) (Spark) (dbt/SQL) (Load) (DW)
Padrões Comuns
ELT vs ETL
| Aspecto | ETL | ELT |
|---|---|---|
| Ordem | Transforma antes de carregar | Carrega antes de transformar |
| Onde transforma | Servidor intermediário | Data Warehouse |
| Custo | Infraestrutura própria | Compute do DW |
| Flexibilidade | Menor | Maior |
| Exemplos | Talend, Informatica | dbt + BigQuery/Snowflake |
O padrão ELT domina em arquiteturas modernas de Data Warehouse na nuvem.
Ferramentas Populares
Orquestração
- Apache Airflow — orquestrador mais popular, altamente configurável
- Prefect — alternativa moderna ao Airflow
- Dagster — foco em observabilidade de dados
Transformação
- dbt (data build tool) — SQL + versionamento + testes
- Apache Spark — processamento distribuído de grandes volumes
- Pandas — processamento local, datasets menores
Armazenamento
- AWS S3 / GCS — data lake de objetos
- Delta Lake / Iceberg — tabelas ACID sobre data lakes
- BigQuery / Snowflake / Redshift — data warehouses na nuvem
Para orquestrar pipelines com Airflow, veja a seção Apache Airflow.