Pipelines de Dados

Fundamentos e padrões para construção de pipelines de dados confiáveis.

Índice

Um pipeline de dados é um conjunto de processos que movem dados de uma ou mais fontes para um destino, aplicando transformações ao longo do caminho.

Fonte → Extração → Transformação → Carga → Destino
 (S3)   (Spark)    (dbt/SQL)       (Load)   (DW)

Aspecto	ETL	ELT
Ordem	Transforma antes de carregar	Carrega antes de transformar
Onde transforma	Servidor intermediário	Data Warehouse
Custo	Infraestrutura própria	Compute do DW
Flexibilidade	Menor	Maior
Exemplos	Talend, Informatica	dbt + BigQuery/Snowflake

O padrão ELT domina em arquiteturas modernas de Data Warehouse na nuvem.

Para orquestrar pipelines com Airflow, veja a seção Apache Airflow.