Sesion 10: Big Data - formatos, arquitecturas y procesamiento

1. Logro de la sesion

Comprender como disenar una plataforma de datos a gran escala diferenciando Data Lake, Data Warehouse y Lakehouse, seleccionando formatos adecuados (especialmente Parquet) y motores de procesamiento para cargas analiticas e IA.


2. Problema que resuelve Big Data

Cuando crecen volumen, velocidad y variedad:


3. Las 5V aplicadas

  1. Volumen: TB/PB de datos.
  2. Velocidad: lotes frecuentes o streaming.
  3. Variedad: tabular, logs, texto, audio, imagen.
  4. Veracidad: calidad y trazabilidad.
  5. Valor: impacto en negocio y producto.

4. Formatos de datos

4.1 CSV

4.2 JSON

4.3 Parquet

4.4 Avro

4.5 ORC


5. Por que Parquet es clave

Ventajas para analitica:

Ejemplo practico:

Un dataset de logs en CSV de 500 GB puede reducirse notablemente en Parquet con mejor latencia de lectura.


6. Arquitecturas de almacenamiento

6.1 Data Warehouse

6.2 Data Lake

6.3 Lakehouse


7. Comparativa rapida

Criterio Warehouse Lake Lakehouse
Tipo de datos Estructurado Cualquier tipo Mixto
Gobernanza Alta Variable Alta
Costo almacenamiento Medio/alto Bajo/medio Medio
Flexibilidad Media Alta Alta
SQL analitico Excelente Variable Excelente

8. Procesamiento distribuido

8.1 MapReduce

Modelo historico de procesamiento paralelo por lotes.

8.2 Apache Spark

8.3 Motor SQL MPP

Procesamiento paralelo masivo para analitica empresarial.


9. Batch vs Streaming

9.1 Batch

9.2 Streaming

9.3 Regla practica

Si el negocio tolera horas, batch suele ser suficiente. Si requiere segundos/minutos, evaluar streaming.


10. Particionamiento de datos

Particionar por fecha es estandar:

Ejemplo de ruta:

/eventos/year=2026/month=04/day=13/

Buenas practicas:


11. Calidad y gobernanza en Big Data

Sin gobierno, el lago se degrada.

Elementos minimos:


12. Modelado para analitica e IA

12.1 Tablas de hechos y dimensiones

12.2 Feature store

Capa para servir variables de ML consistentes entre entrenamiento e inferencia.

12.3 Relacion curricular

Conecta con semana ETL y con semana de arquitectura hibrida para RAG.


13. PostgreSQL en ecosistema Big Data

PostgreSQL no reemplaza todo el stack Big Data, pero aporta:

Conexion con scripts ETL:


14. Patrón medallon (Bronze, Silver, Gold)

14.1 Bronze

Datos crudos, historico completo.

14.2 Silver

Datos limpios y estandarizados.

14.3 Gold

Datos agregados para negocio.

Ventaja:

Separar responsabilidades y reducir acoplamiento.


15. Costos y finops de datos

Variables de costo:

Principios finops:

  1. medir costo por dataset,
  2. automatizar borrado/retencion,
  3. priorizar formatos eficientes.

16. Seguridad en plataformas Big Data

Controles minimos:


17. Errores frecuentes


18. Caso de estudio

Escenario:

Plataforma de mensajeria IA con millones de eventos diarios.

Decisiones:

Resultado:


19. Mini laboratorio

  1. Definir un dataset de eventos y su esquema logico.
  2. Diseñar particion por fecha.
  3. Elegir formato de almacenamiento final.
  4. Proponer flujo Bronze -> Silver -> Gold.
  5. Explicar por que no dejar todo en una sola tabla.

20. Checklist de dominio


21. Preguntas de autoevaluacion

  1. Que diferencia central hay entre lake y warehouse?
  2. Cuando Parquet no es la mejor eleccion?
  3. Que problema genera un “data swamp”?
  4. Que capa del patron medallon consume BI?
  5. Como reducir costo sin perder calidad?

22. Referencias recomendadas

  1. The Data Warehouse Toolkit.
  2. Designing Data-Intensive Applications.
  3. Apache Spark Documentation.
  4. Delta Lake / Iceberg documentation.
  5. Guías de arquitectura de datos en nube.