Pipelines de Dados

Fundamentos e padrões para construção de pipelines de dados confiáveis.

Índice

  1. O que é um Pipeline de Dados?
  2. Padrões Comuns
    1. ELT vs ETL
  3. Ferramentas Populares
    1. Orquestração
    2. Transformação
    3. Armazenamento

O que é um Pipeline de Dados?

Um pipeline de dados é um conjunto de processos que movem dados de uma ou mais fontes para um destino, aplicando transformações ao longo do caminho.

1
2
Fonte → Extração → Transformação → Carga → Destino
 (S3)   (Spark)    (dbt/SQL)       (Load)   (DW)

Padrões Comuns

ELT vs ETL

Aspecto ETL ELT
Ordem Transforma antes de carregar Carrega antes de transformar
Onde transforma Servidor intermediário Data Warehouse
Custo Infraestrutura própria Compute do DW
Flexibilidade Menor Maior
Exemplos Talend, Informatica dbt + BigQuery/Snowflake

O padrão ELT domina em arquiteturas modernas de Data Warehouse na nuvem.

Ferramentas Populares

Orquestração

  • Apache Airflow — orquestrador mais popular, altamente configurável
  • Prefect — alternativa moderna ao Airflow
  • Dagster — foco em observabilidade de dados

Transformação

  • dbt (data build tool) — SQL + versionamento + testes
  • Apache Spark — processamento distribuído de grandes volumes
  • Pandas — processamento local, datasets menores

Armazenamento

  • AWS S3 / GCS — data lake de objetos
  • Delta Lake / Iceberg — tabelas ACID sobre data lakes
  • BigQuery / Snowflake / Redshift — data warehouses na nuvem

Para orquestrar pipelines com Airflow, veja a seção Apache Airflow.


© BP STRAT. Todos os direitos reservados. readme