Sesion 9: ETL y pipelines de datos

1. Logro de la sesion

Disenar pipelines ETL/ELT confiables para mover datos desde fuentes operativas hacia capas analiticas (Bronze, Silver, Gold), diferenciando batch y streaming, y aplicando controles de calidad, incrementalidad y monitoreo.


2. Conexion con el syllabus

Semana 9 corresponde a:

Se alinea con 9-etl.sql.


3. Que es un pipeline de datos

Un pipeline es una cadena de procesos que:

  1. extrae datos,
  2. transforma y valida,
  3. carga a destino para consumo.

Objetivo real:

entregar datos confiables, oportunos y trazables.


4. ETL vs ELT

4.1 ETL

Transforma antes de cargar.

Ventajas:

4.2 ELT

Carga primero, transforma en destino.

Ventajas:


5. Fuentes de datos

Tipos comunes:

Recomendacion:

capturar metadata de origen desde la ingesta.


6. Arquitectura por capas (Medallon)

6.1 Bronze

Datos crudos, historicos, minimo procesamiento.

6.2 Silver

Datos limpiados, tipados y estandarizados.

6.3 Gold

Datos agregados para BI, analitica y ML.


7. Implementacion en PostgreSQL

Ejemplo de schemas:

CREATE SCHEMA IF NOT EXISTS bronze;
CREATE SCHEMA IF NOT EXISTS silver;
CREATE SCHEMA IF NOT EXISTS gold;

Este patron aparece en los scripts practicos de ETL.


8. Carga inicial vs incremental

8.1 Carga full

8.2 Carga incremental


9. Marca de agua y control

Tabla de control recomendada:

Beneficio:

permite reintentos y auditoria operacional.


10. Transformaciones tipicas en Silver

  1. normalizar texto (LOWER, TRIM),
  2. validar email,
  3. extraer dominios,
  4. limpiar espacios/ruido,
  5. tipar fechas,
  6. estandarizar categorias.

11. Calidad de datos en pipeline

Dimensiones:

Regla:

si falla control critico, detener carga a Gold.


12. Batch vs Streaming

12.1 Batch

12.2 Streaming

Seleccion segun SLA de negocio.


13. Orquestacion y scheduling

Un pipeline productivo requiere:

Herramientas comunes:

Airflow, Prefect, Dagster, orquestadores cloud.


14. Idempotencia en ETL

Un job idempotente se puede re-ejecutar sin duplicar ni corromper datos.

Estrategias:


15. CDC en pipelines

Change Data Capture detecta cambios en origen para sincronizar destino.

Eventos CDC:

Es clave cuando hay integracion con capas vectoriales o microservicios.


16. Capa Gold y consumo

Objetivo de Gold:

No debe contener logica improvisada de ultima hora.


17. Monitoreo operacional

Metricas minimas:

Alertas:


18. Seguridad y gobierno en ETL


19. Errores frecuentes


20. Caso aplicado

Plataforma de mensajeria IA:

Resultado:

analitica confiable y base de features para ML.


21. Mini laboratorio

  1. Crear schemas Bronze/Silver/Gold.
  2. Cargar datos crudos en Bronze.
  3. Transformar usuarios y mensajes a Silver.
  4. Generar resumen diario en Gold.
  5. Registrar ejecucion en tabla de control.

22. Checklist de salida


23. Preguntas de autoevaluacion

  1. Cuando prefieres ETL sobre ELT?
  2. Que guarda una tabla de control de cargas?
  3. Por que idempotencia evita incidentes?
  4. Que control debe bloquear una carga a Gold?
  5. Cuando streaming no aporta valor?

24. Referencias recomendadas

  1. Kimball: Data Warehouse Toolkit.
  2. Designing Data-Intensive Applications.
  3. Docs de orquestadores (Airflow/Prefect/Dagster).
  4. Buenas practicas de calidad de datos.
  5. Scripts ETL del curso.