Sesión 1: Fundamentos Matemáticos
Teoría
1. Notación matemática
Índices
Los índices se utilizan para referirse a elementos de una secuencia, conjunto o estructura de datos. Se denotan típicamente con subíndices: $x_1, x_2, x_3, \dots, x_n$.
Ejemplo paso a paso:
Consideremos las calificaciones de 5 estudiantes: 15, 18, 14, 20, 16.
Podemos denotar: $x_1 = 15$, $x_2 = 18$, $x_3 = 14$, $x_4 = 20$, $x_5 = 16$.
Para referirnos al tercer elemento: $x_3 = 14$.
Sucesiones
Una sucesión es una función cuyo dominio son los números naturales. Se denota ${a_n}_{n=1}^{\infty}$.
Ejemplo: $a_n = \frac{1}{n}$ produce: $1, \frac{1}{2}, \frac{1}{3}, \frac{1}{4}, \dots$
Series
Una serie es la suma de los términos de una sucesión: $\sum_{n=1}^{\infty} a_n$.
| Ejemplo: Serie geométrica: $\sum_{n=0}^{\infty} r^n = \frac{1}{1-r}$ para $ | r | < 1$. |
Sumatorias simples
La sumatoria simple suma una secuencia de términos:
\[\sum_{i=1}^{n} x_i = x_1 + x_2 + \cdots + x_n\]Ejemplo paso a paso:
Calcular $\sum_{i=1}^{4} i^2$:
- $i=1$: $1^2 = 1$
- $i=2$: $2^2 = 4$
- $i=3$: $3^2 = 9$
- $i=4$: $4^2 = 16$ Suma total: $1 + 4 + 9 + 16 = 30$
Sumatorias dobles
Se utilizan para recorrer dos índices, típicamente filas y columnas de una matriz:
\[\sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}\]Ejemplo paso a paso:
Dada la matriz $A = \begin{pmatrix} 1 & 2 & 3 \ 4 & 5 & 6 \end{pmatrix}$, calcular $\sum_{i=1}^{2} \sum_{j=1}^{3} a_{ij}$:
- $i=1, j=1$: 1
- $i=1, j=2$: 2
- $i=1, j=3$: 3
- $i=2, j=1$: 4
- $i=2, j=2$: 5
- $i=2, j=3$: 6 Suma total: $1+2+3+4+5+6 = 21$
Sumatorias triples
Aparecen en problemas con tres dimensiones, como tensores:
\[\sum_{i=1}^{l} \sum_{j=1}^{m} \sum_{k=1}^{n} a_{ijk}\]Productorias
Similar a las sumatorias, pero multiplicando:
\[\prod_{i=1}^{n} x_i = x_1 \cdot x_2 \cdots x_n\]Ejemplo: $\prod_{i=1}^{4} i = 1 \cdot 2 \cdot 3 \cdot 4 = 24$
2. Sistemas de dimensiones
2D (bidimensional)
Un sistema 2D tiene dos ejes coordenados (x, y). Ejemplos: puntos en un plano, imágenes en escala de grises (alto × ancho).
Ejemplo: El punto $P = (3, 4)$ está a 3 unidades en el eje x y 4 en el eje y.
3D (tridimensional)
Añade un tercer eje z. Ejemplos: puntos en el espacio, videos (frames, alto, ancho), imágenes a color (alto, ancho, canales RGB).
Ejemplo: El punto $P = (1, 2, 3)$ en el espacio 3D.
n-dimensional
Generalización a n dimensiones. Un punto se representa como $(x_1, x_2, \dots, x_n)$. En IA, cada punto es una observación con n características (features).
Ejemplo: Un paciente con edad, peso, altura, presión sistólica y diastólica → $ \text{paciente} = (45, 70, 1.75, 120, 80) $ en $\mathbb{R}^5$.
3. Estructura de datos: Grafos
Un grafo es un conjunto de nodos (vértices) conectados por aristas. Se denota $G = (V, E)$.
- V: conjunto de vértices
- E: conjunto de aristas (pares de vértices)
Ejemplo: Red social: personas como nodos, amistades como aristas.
Tipos:
- Dirigido: las aristas tienen dirección (ej: Twitter, sigues a alguien).
- No dirigido: las aristas no tienen dirección (ej: Facebook, amistad mutua).
Aplicación en IA: Los grafos se usan en redes neuronales de grafos (GNN), sistemas de recomendación, análisis de redes sociales, etc.
4. Objetos matemáticos
Escalares
Un número real o complejo. Denotado por letras sin negrita: $a, b, c, \alpha, \beta$.
Ejemplo: $x = 5$, $\lambda = 0.01$ (learning rate en ML).
Vectores
Lista ordenada de números. Se denotan con negrita: $\mathbf{v} = (v_1, v_2, \dots, v_n)$ o $\vec{v}$.
Ejemplo: $\mathbf{v} = [2, -1, 4]$ en $\mathbb{R}^3$.
En ML, un vector representa una observación: $\mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)}, \dots, x_n^{(i)}]$ son las características del i-ésimo ejemplo.
Matrices
Tabla rectangular de números con filas y columnas. Se denotan con mayúsculas: $A, B, W$.
\[A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}\]Ejemplo: $W = \begin{pmatrix} 0.2 & -0.5 \ 0.8 & 0.1 \end{pmatrix}$ podría ser una matriz de pesos en una red neuronal.
Tensores
Generalización de vectores y matrices a más dimensiones. Un tensor de orden (rank) 0 es un escalar, orden 1 es un vector, orden 2 es una matriz, orden 3 o más es un tensor.
Ejemplo: Una imagen a color de 224×224 píxeles se representa como un tensor 3D: (224, 224, 3). Un lote (batch) de 32 imágenes es un tensor 4D: (32, 224, 224, 3).
5. Funciones elementales
Función lineal
$f(x) = mx + b$
Ejemplo paso a paso:
$f(x) = 2x + 1$
- $x = 0 \Rightarrow f(0) = 1$
- $x = 1 \Rightarrow f(1) = 3$
- $x = -1 \Rightarrow f(-1) = -1$
Aplicación: Modelos de regresión lineal.
Función polinomial
$f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0$
Ejemplo: $f(x) = x^2 - 3x + 2$
- $x = 0 \Rightarrow f(0) = 2$
- $x = 1 \Rightarrow f(1) = 0$
- $x = 2 \Rightarrow f(2) = 0$ (raíces)
Función exponencial
$f(x) = a^x$ con $a > 0$, $a \neq 1$. La base más común es $e$ (número de Euler ≈ 2.71828).
Ejemplo: $f(x) = e^x$
- $x = 0 \Rightarrow f(0) = 1$
- $x = 1 \Rightarrow f(1) \approx 2.718$
- $x = -1 \Rightarrow f(-1) \approx 0.368$
Aplicación: Crecimiento poblacional, interés compuesto, kernel RBF en SVM: $K(x, x’) = \exp(-\gamma |x - x’|^2)$.
Función logarítmica
$f(x) = \log_a x$ con $a > 0$, $a \neq 1$, $x > 0$. Es la inversa de la exponencial.
Ejemplo: $\log_{10} 100 = 2$ porque $10^2 = 100$.
$\ln e = 1$ porque $e^1 = e$.
Aplicación: Entropía, log-loss, verosimilitud.
Función trigonométrica
- Seno: $f(x) = \sin x$
- Coseno: $f(x) = \cos x$
Ejemplo: $\sin 0 = 0$, $\sin \pi/2 = 1$, $\cos 0 = 1$, $\cos \pi = -1$.
Aplicación: Positional encoding en Transformers:
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right)$,
$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)$.
Función trigonométrica hiperbólica
- Seno hiperbólico: $\sinh x = \frac{e^x - e^{-x}}{2}$
- Coseno hiperbólico: $\cosh x = \frac{e^x + e^{-x}}{2}$
- Tangente hiperbólica: $\tanh x = \frac{\sinh x}{\cosh x} = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
Ejemplo: $\tanh 0 = 0$, $\tanh 1 \approx 0.762$, $\tanh 2 \approx 0.964$.
Aplicación: Función de activación tanh en RNNs y MLPs.
6. Tipos de funciones por dominio
Composición de funciones
Dadas $f$ y $g$, la composición $f \circ g$ se define como $(f \circ g)(x) = f(g(x))$.
Ejemplo paso a paso:
$f(x) = x^2$, $g(x) = 2x + 1$
$(f \circ g)(x) = f(g(x)) = f(2x+1) = (2x+1)^2$
- Si $x = 1$: $g(1) = 3$, $f(3) = 9$
- Directo: $(2\cdot1+1)^2 = 9$ ✓
Aplicación en DL: Una red neuronal es una composición de funciones:
$f(x) = f_L(f_{L-1}(\dots f_1(x)\dots))$, donde cada capa aplica una transformación lineal seguida de una activación no lineal.
Funciones por tramos
Definidas por diferentes expresiones en diferentes intervalos.
Ejemplo: ReLU (Rectified Linear Unit): \(\text{ReLU}(x) = \begin{cases} x & \text{si } x \geq 0 \\ 0 & \text{si } x < 0 \end{cases}\)
Aplicación: Función de activación más usada en DL.
7. Funciones de activación
Sigmoide
\(\sigma(x) = \frac{1}{1 + e^{-x}}\)
Ejemplo paso a paso:
- $x = 0$: $\sigma(0) = \frac{1}{1 + e^0} = \frac{1}{1+1} = 0.5$
- $x = 2$: $\sigma(2) = \frac{1}{1 + e^{-2}} \approx \frac{1}{1 + 0.1353} \approx 0.881$
- $x = -2$: $\sigma(-2) = \frac{1}{1 + e^{2}} \approx \frac{1}{1 + 7.389} \approx 0.119$
Aplicación: Regresión logística (salida entre 0 y 1), compuertas en LSTM.
Tanh
\(\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}\)
Ejemplo paso a paso:
- $x = 0$: $\tanh(0) = 0$
- $x = 1$: $\tanh(1) \approx \frac{2.718 - 0.368}{2.718 + 0.368} = \frac{2.35}{3.086} \approx 0.762$
- $x = -1$: $\tanh(-1) \approx -0.762$
Aplicación: Función de activación en RNNs, centrada en cero.
ReLU
\(\text{ReLU}(x) = \max(0, x)\)
Ejemplo paso a paso:
- $x = 3$: ReLU(3) = 3
- $x = -2$: ReLU(-2) = 0
- $x = 0$: ReLU(0) = 0
Aplicación: Función de activación por defecto en CNN y MLP.
8. Concepto de función de pérdida
Una función de pérdida $L(y, \hat{y})$ mide la discrepancia entre el valor real $y$ y el valor predicho $\hat{y}$.
Definición general
\(L(\theta) = \frac{1}{n} \sum_{i=1}^{n} \ell(y_i, \hat{y}_i)\) donde $\ell$ es la pérdida por ejemplo, y $\theta$ son los parámetros del modelo.
Ejemplos intuitivos
Distancia entre números (regresión): Error cuadrático medio \(\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)
Diferencia entre probabilidades (clasificación): Entropía cruzada \(\text{Cross-Entropy} = -\sum_{i=1}^{n} y_i \log(\hat{y}_i)\) donde $y_i \in {0,1}$ y $\hat{y}_i \in [0,1]$ es la probabilidad predicha.
Ejemplo paso a paso (MSE):
Valores reales: $y = [3, -0.5, 2, 7]$
Predicciones: $\hat{y} = [2.5, 0.0, 2, 8]$
Diferencias: $[0.5, -0.5, 0, -1]$
Cuadrados: $[0.25, 0.25, 0, 1]$
Suma: $1.5$
MSE = $1.5 / 4 = 0.375$
Ejemplo paso a paso (Cross-Entropy):
Clasificación binaria, $y = 1$, $\hat{y} = 0.8$
Pérdida: $-\log(0.8) \approx -(-0.223) = 0.223$
Si $y = 0$, $\hat{y} = 0.1$: pérdida $-\log(0.9) \approx 0.105$ (notar que para $y=0$ usamos $-\log(1-\hat{y})$)
Aplicaciones prácticas
Machine Learning (ML)
Regresión lineal (función lineal)
Modelo: $\hat{y} = w^T x + b$
Es una función lineal de las características $x$. Los parámetros $w$ (pesos) y $b$ (sesgo) se aprenden minimizando una función de pérdida como MSE.
Ecuación:
\(\hat{y} = \sum_{j=1}^{n} w_j x_j + b\)
Aquí aparece una sumatoria (tema de la semana) sobre las características.
Regresión logística (sigmoide, softmax)
Modelo de clasificación binaria:
\(P(y=1|x) = \sigma(w^T x + b) = \frac{1}{1 + e^{-(w^T x + b)}}\)
La función sigmoide transforma una combinación lineal en una probabilidad entre 0 y 1.
Para clasificación multiclase, se usa softmax:
\(P(y=k|x) = \frac{e^{w_k^T x + b_k}}{\sum_{j=1}^{K} e^{w_j^T x + b_j}}\)
Aquí aparecen exponenciales y una sumatoria en el denominador.
SVM (kernel RBF: exponencial)
El kernel RBF (Radial Basis Function) mide similitud entre dos puntos: \(K(x, x') = \exp\left(-\gamma \|x - x'\|^2\right)\) Es una función exponencial aplicada a una distancia.
Entropía (logaritmo)
La entropía mide la incertidumbre en una distribución de probabilidad: \(H(S) = -\sum_{i=1}^{n} p_i \log_2 p_i\) Aparece una sumatoria y un logaritmo. En árboles de decisión, se usa para medir la impureza.
Funciones de pérdida (log-loss)
La log-loss (entropía cruzada binaria) es: \(L = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]\) Combina sumatoria y logaritmo.
Deep Learning (DL)
Perceptrón (función lineal + activación)
Un perceptrón es la unidad básica de una red neuronal: \(\text{salida} = f(w^T x + b)\) donde $f$ es una función de activación (ReLU, sigmoide, tanh). Aquí se combina una función lineal (suma ponderada) con una función no lineal.
Funciones de activación (ReLU, GELU)
- ReLU: $ \max(0, x) $ (función por tramos)
- GELU: $ x \cdot \Phi(x) $ donde $\Phi$ es la CDF de la normal, aproximada como $0.5x(1 + \tanh(\sqrt{2/\pi}(x + 0.044715x^3)))$ (combina polinomio, exponencial y tanh).
Positional encoding (seno/coseno)
En Transformers, se añade información de posición: \(PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)\) Son funciones trigonométricas aplicadas a la posición.
RNN (tanh, sigmoide)
En una RNN, el estado oculto se actualiza como: \(h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)\) Aparece la función tanh (o sigmoide en LSTMs).
Atención (softmax)
El mecanismo de atención calcula pesos normalizados: \(\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k} \exp(e_{ik})}\) donde $e_{ij}$ son puntuaciones de atención. Aquí se usa exponencial y sumatoria (softmax).