Sesión 1: Introducción al Machine Learning
1. Logro de la sesión
Comprender un panorama inicial del flujo de datos a nivel de ingenieria y ciencia de datos, con los modelos principales del Machine Learning.
2. Fundamentos conceptuales
Definición IA / ML / DL
Marco teórico: Basado en la jerarquía de Russell y Norvig (AI: A Modern Approach). La IA se divide en cuatro enfoques: sistemas que piensan como humanos, actúan como humanos, piensan racionalmente o actúan racionalmente. ML es un subconjunto del enfoque racional (aprendizaje a partir de datos). DL es un subconjunto de ML basado en representaciones jerárquicas.
Referentes:
- Arthur Samuel (1959): “Campo de estudio que da a las computadoras la capacidad de aprender sin ser explícitamente programadas”
- Tom Mitchell (1997): “Un programa aprende si su rendimiento en tareas T mejora con la experiencia E”
Tipos de aprendizaje
Marco teórico: Basado en la clasificación de Murphy (Machine Learning: A Probabilistic Perspective):
| Tipo | Fundamento | Autores clave |
|---|---|---|
| Supervisado | Teoría de la decisión estadística | Vapnik (Statistical Learning Theory) |
| No supervisado | Teoría de la información / clustering | Hartigan (1975) |
| Refuerzo | Procesos de decisión de Markov (MDP) | Sutton & Barto (1998) |
| Semisupervisado | Teoría del aprendizaje semi-supervisado | Chapelle, Scholkopf, Zien (2006) |
Métodos paramétricos vs no paramétricos
Marco teórico: Basado en la teoría de la complejidad estadística (Vapnik-Chervonenkis theory):
- Paramétricos: Asumen una distribución fija (ej: Gaussiana). La complejidad del modelo no crece con n. Sesgo alto, varianza baja.
- No paramétricos: No asumen forma funcional fija. La complejidad crece con n. Sesgo bajo, varianza alta.
Referente: Wasserman (All of Statistics, 2004)
3. Fundamentos matemáticos
Funciones de coste
Marco teórico: Basado en la teoría de la estimación (Casella & Berger, Statistical Inference). La función de coste cuantifica la discrepancia entre predicción $\hat{y}$ y valor real $y$.
| Función | Problema | Fundamento |
|---|---|---|
| MSE | Regresión | Riesgo cuadrático, óptimo para errores Gaussianos |
| Entropía cruzada | Clasificación | Máxima verosimilitud para distribución Bernoulli |
| Hinge loss | SVM | Aproximación convexa del error de clasificación 0-1 |
Referente: Bishop (Pattern Recognition and Machine Learning, 2006)
Optimización
Marco teórico: Basado en la optimización convexa (Boyd & Vandenberghe):
- Gradiente descendente: Método iterativo de primer orden. Converge a óptimo global si la función es convexa.
- SGD: Robbins-Monro (1951). Permite procesar datasets que no caben en memoria.
- Solución cerrada (Normal Equation): Aplica solo a regresión lineal. Usa pseudoinversa de Moore-Penrose.
Regularización
Marco teórico: Basado en la teoría de la complejidad estadística y el principio de la navaja de Occam:
| Técnica | Fundamento matemático | Efecto |
|---|---|---|
| Ridge (L2) | Norma euclidiana | Contrae coeficientes, no los lleva a cero |
| Lasso (L1) | Norma L1 | Selección de características (escasa) |
| Elastic Net | Combinación L1 + L2 | Maneja correlaciones altas |
Referente: Hastie, Tibshirani, Friedman (The Elements of Statistical Learning)
Overfitting y generalización
Marco teórico: Basado en la teoría de Vapnik-Chervonenkis (VC theory). El error de generalización se descompone como:
\[Error_{generalización} = Error_{entrenamiento} + \epsilon_{complejidad}\]El sesgo mide la capacidad del modelo, la varianza mide la sensibilidad a los datos.
4. Historia y evolución
Marco teórico: Basado en la historiografía de la IA (Nilsson, The Quest for Artificial Intelligence). Se organiza en “olas” o “estaciones” del ML:
| Década | Paradigma dominante | Hitos clave |
|---|---|---|
| 1950s-60s | Conexionismo temprano | Perceptrón (Rosenblatt) |
| 1970s-80s | Simbolismo / árboles | ID3 (Quinlan), backpropagation (Rumelhart) |
| 1990s | Teoría del aprendizaje estadístico | SVM (Vapnik), Random Forest (Breiman) |
| 2000s | Ensembles y boosting | XGBoost (Chen), LightGBM (Microsoft) |
| 2010s-presente | Deep Learning y transformers | AlexNet, ResNet, BERT, GPT |
5. Metodología y ciclo de vida
CRISP-DM
Marco teórico: Estándar de facto desde 1999, desarrollado por SPSS, NCR, DaimlerChrysler. Se basa en la metodología de proyectos en cascada adaptada con iteraciones.
| Fase | Propósito | Entregable típico |
|---|---|---|
| Comprensión del negocio | Definir objetivos desde el negocio | Plan de proyecto |
| Comprensión de los datos | Recolectar y explorar datos | Reporte de calidad de datos |
| Preparación de datos | Limpiar y transformar | Dataset final |
| Modelado | Seleccionar y entrenar modelos | Modelo candidato |
| Evaluación | Validar contra objetivos | Decisión de deploy |
| Despliegue | Poner en producción | Sistema operativo |
Roles profesionales
Marco teórico: Basado en el modelo de madurez de datos de Gartner y los frameworks de competencias de la industria:
| Rol | Dominio primario | Responsabilidad clave |
|---|---|---|
| Data Engineer | Ingeniería de datos | Pipelines ETL/ELT, Data Lakes/Warehouses |
| Data Scientist | Estadística/ML | Exploración, modelado, insights |
| ML Engineer | Ingeniería software + ML | API, escalado, versionado de modelos |
| MLOps Engineer | DevOps + ML | CI/CD, monitoreo, gobernanza |
6. Aspectos computacionales
Complejidad algorítmica
Marco teórico: Basado en la teoría de la complejidad computacional (notación Big O). Distingue entre:
- Complejidad de entrenamiento: Lo que importa para desarrollo
- Complejidad de inferencia: Lo que importa para producción
| Modelo | Entrenamiento | Inferencia | Referente |
|---|---|---|---|
| Regresión lineal (normal) | O(n³) | O(p) | Strassen (1969) |
| k-NN | O(1) | O(n·p) | Cover & Hart (1967) |
| Árboles | O(n·p·log n) | O(profundidad) | Quinlan (1986) |
| Random Forest | O(k·n·p·log n) | O(k·profundidad) | Breiman (2001) |
Hardware: CPU / GPU / TPU
Marco teórico: Basado en la arquitectura de computadoras (Flynn’s taxonomy) y la ley de Moore con evolución hacia aceleradores:
| Hardware | Arquitectura | Ideal para | Limitación |
|---|---|---|---|
| CPU | Control + ALU, pocos núcleos potentes | Tareas secuenciales, ML clásico | Paralelismo limitado |
| GPU | Miles de núcleos simples | Operaciones matriciales (DL, XGBoost) | Overhead de transferencia |
| TPU | Matriz de multiplicación optimizada | Tensor operations (DL exclusivo) | No útil para ML clásico |
Referente: Hennessy & Patterson (Computer Architecture: A Quantitative Approach)
7. Evaluación (Métricas)
Marco teórico: Basado en la teoría de la decisión estadística y el análisis de costes. La métrica debe elegirse en función del problema de negocio, no del modelo.
| Tipo de problema | Métricas clave | Fundamento |
|---|---|---|
| Clasificación | Precisión, Recall, F1, AUC-ROC | Análisis de la matriz de confusión (Provost & Fawcett) |
| Regresión | MAE, RMSE, R² | Teoría del error (Hastie et al.) |
| Clustering | Silhouette, Davies-Bouldin, Inercia | Validación interna de clusters (Rousseeuw, 1987) |
Principio fundamental: “Lo que no se mide, no se mejora” — la métrica debe reflejar el coste real de los errores en el contexto de la aplicación.
8. Aplicaciones reales
Marco teórico: Basado en el aprendizaje basado en casos (Case-Based Learning) y la transferencia de conocimiento. Los casos deben:
- Ser auténticos (problemas reales de la industria)
- Cubrir múltiples sectores
- Conectar cada caso con tipos de aprendizaje y métricas
| Industria | Caso de uso | Tipo de aprendizaje | Métrica crítica |
|---|---|---|---|
| Retail/E-commerce | Recomendación | Supervisado / Filtrado colaborativo | Precision@K, Recall@K |
| Finanzas | Detección de fraude | Supervisado (clasificación desbalanceada) | Recall (sobre F1) |
| Manufactura | Mantenimiento predictivo | Supervisado (series temporales) | RMSE, Precisión |
| Salud | Diagnóstico médico | Supervisado (clasificación de imágenes) | Sensibilidad/Especificidad |
| Energía | Predicción de demanda | Supervisado (series temporales) | MAE, MAPE |
9. Apéndice: línea temporal del ML en la industria (visión panorámica)
| Periodo | Tendencia | Implicación práctica |
|---|---|---|
| 2010–2015 | Big data + Hadoop/Spark; deep learning revoluciona visión | Pipelines distribuidos; GPUs accesibles |
| 2015–2020 | TensorFlow/PyTorch; transfer learning | Equipos mixtos investigación–ingeniería |
| 2020–2026 | MLOps, feature stores, gobernanza, LLMs | Menos “solo notebook”, más productos reproducibles |
9.1 Plantilla mínima de exploración en Python (sesiones posteriores la amplían)
import numpy as np
import pandas as pd
rng = np.random.default_rng(42)
df = pd.DataFrame({"x": rng.normal(size=200), "y": rng.normal(size=200)})
print(df.describe())
Este patrón (import → objeto DataFrame/ndarray → métodos describe, plot) es la base sobre la que se montan los laboratorios NTB.
9.2 Cómo usar este documento para estudiar
- Leer cada Marco teórico intentando reformular con tus palabras.
- Para cada tabla de métricas, escribir un ejemplo de negocio donde esa métrica sea la adecuada.
- Antes de cada laboratorio, trazar el flujo de datos desde archivo bruto hasta métrica final.
Referencias bibliográficas principales
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
- Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach. Pearson.
- Vapnik, V. N. (1998). Statistical Learning Theory. Wiley.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.