Sesión 1: Fundamentos Matemáticos

Teoría

1. Notación matemática

Índices

Los índices se utilizan para referirse a elementos de una secuencia, conjunto o estructura de datos. Se denotan típicamente con subíndices: $x_1, x_2, x_3, \dots, x_n$.

Ejemplo paso a paso:
Consideremos las calificaciones de 5 estudiantes: 15, 18, 14, 20, 16.
Podemos denotar: $x_1 = 15$, $x_2 = 18$, $x_3 = 14$, $x_4 = 20$, $x_5 = 16$.
Para referirnos al tercer elemento: $x_3 = 14$.

Sucesiones

Una sucesión es una función cuyo dominio son los números naturales. Se denota ${a_n}_{n=1}^{\infty}$.

Ejemplo: $a_n = \frac{1}{n}$ produce: $1, \frac{1}{2}, \frac{1}{3}, \frac{1}{4}, \dots$

Series

Una serie es la suma de los términos de una sucesión: $\sum_{n=1}^{\infty} a_n$.

Ejemplo: Serie geométrica: $\sum_{n=0}^{\infty} r^n = \frac{1}{1-r}$ para $ r < 1$.

Sumatorias simples

La sumatoria simple suma una secuencia de términos:

\[\sum_{i=1}^{n} x_i = x_1 + x_2 + \cdots + x_n\]

Ejemplo paso a paso:
Calcular $\sum_{i=1}^{4} i^2$:

Sumatorias dobles

Se utilizan para recorrer dos índices, típicamente filas y columnas de una matriz:

\[\sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}\]

Ejemplo paso a paso:
Dada la matriz $A = \begin{pmatrix} 1 & 2 & 3 \ 4 & 5 & 6 \end{pmatrix}$, calcular $\sum_{i=1}^{2} \sum_{j=1}^{3} a_{ij}$:

Sumatorias triples

Aparecen en problemas con tres dimensiones, como tensores:

\[\sum_{i=1}^{l} \sum_{j=1}^{m} \sum_{k=1}^{n} a_{ijk}\]

Productorias

Similar a las sumatorias, pero multiplicando:

\[\prod_{i=1}^{n} x_i = x_1 \cdot x_2 \cdots x_n\]

Ejemplo: $\prod_{i=1}^{4} i = 1 \cdot 2 \cdot 3 \cdot 4 = 24$

2. Sistemas de dimensiones

2D (bidimensional)

Un sistema 2D tiene dos ejes coordenados (x, y). Ejemplos: puntos en un plano, imágenes en escala de grises (alto × ancho).

Ejemplo: El punto $P = (3, 4)$ está a 3 unidades en el eje x y 4 en el eje y.

3D (tridimensional)

Añade un tercer eje z. Ejemplos: puntos en el espacio, videos (frames, alto, ancho), imágenes a color (alto, ancho, canales RGB).

Ejemplo: El punto $P = (1, 2, 3)$ en el espacio 3D.

n-dimensional

Generalización a n dimensiones. Un punto se representa como $(x_1, x_2, \dots, x_n)$. En IA, cada punto es una observación con n características (features).

Ejemplo: Un paciente con edad, peso, altura, presión sistólica y diastólica → $ \text{paciente} = (45, 70, 1.75, 120, 80) $ en $\mathbb{R}^5$.

3. Estructura de datos: Grafos

Un grafo es un conjunto de nodos (vértices) conectados por aristas. Se denota $G = (V, E)$.

Ejemplo: Red social: personas como nodos, amistades como aristas.

Tipos:

Aplicación en IA: Los grafos se usan en redes neuronales de grafos (GNN), sistemas de recomendación, análisis de redes sociales, etc.

4. Objetos matemáticos

Escalares

Un número real o complejo. Denotado por letras sin negrita: $a, b, c, \alpha, \beta$.

Ejemplo: $x = 5$, $\lambda = 0.01$ (learning rate en ML).

Vectores

Lista ordenada de números. Se denotan con negrita: $\mathbf{v} = (v_1, v_2, \dots, v_n)$ o $\vec{v}$.

Ejemplo: $\mathbf{v} = [2, -1, 4]$ en $\mathbb{R}^3$.

En ML, un vector representa una observación: $\mathbf{x}^{(i)} = [x_1^{(i)}, x_2^{(i)}, \dots, x_n^{(i)}]$ son las características del i-ésimo ejemplo.

Matrices

Tabla rectangular de números con filas y columnas. Se denotan con mayúsculas: $A, B, W$.

\[A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}\]

Ejemplo: $W = \begin{pmatrix} 0.2 & -0.5 \ 0.8 & 0.1 \end{pmatrix}$ podría ser una matriz de pesos en una red neuronal.

Tensores

Generalización de vectores y matrices a más dimensiones. Un tensor de orden (rank) 0 es un escalar, orden 1 es un vector, orden 2 es una matriz, orden 3 o más es un tensor.

Ejemplo: Una imagen a color de 224×224 píxeles se representa como un tensor 3D: (224, 224, 3). Un lote (batch) de 32 imágenes es un tensor 4D: (32, 224, 224, 3).

5. Funciones elementales

Función lineal

$f(x) = mx + b$

Ejemplo paso a paso:
$f(x) = 2x + 1$

Aplicación: Modelos de regresión lineal.

Función polinomial

$f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0$

Ejemplo: $f(x) = x^2 - 3x + 2$

Función exponencial

$f(x) = a^x$ con $a > 0$, $a \neq 1$. La base más común es $e$ (número de Euler ≈ 2.71828).

Ejemplo: $f(x) = e^x$

Aplicación: Crecimiento poblacional, interés compuesto, kernel RBF en SVM: $K(x, x’) = \exp(-\gamma |x - x’|^2)$.

Función logarítmica

$f(x) = \log_a x$ con $a > 0$, $a \neq 1$, $x > 0$. Es la inversa de la exponencial.

Ejemplo: $\log_{10} 100 = 2$ porque $10^2 = 100$.
$\ln e = 1$ porque $e^1 = e$.

Aplicación: Entropía, log-loss, verosimilitud.

Función trigonométrica

Ejemplo: $\sin 0 = 0$, $\sin \pi/2 = 1$, $\cos 0 = 1$, $\cos \pi = -1$.

Aplicación: Positional encoding en Transformers:
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right)$,
$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)$.

Función trigonométrica hiperbólica

Ejemplo: $\tanh 0 = 0$, $\tanh 1 \approx 0.762$, $\tanh 2 \approx 0.964$.

Aplicación: Función de activación tanh en RNNs y MLPs.

6. Tipos de funciones por dominio

Composición de funciones

Dadas $f$ y $g$, la composición $f \circ g$ se define como $(f \circ g)(x) = f(g(x))$.

Ejemplo paso a paso:
$f(x) = x^2$, $g(x) = 2x + 1$
$(f \circ g)(x) = f(g(x)) = f(2x+1) = (2x+1)^2$

Aplicación en DL: Una red neuronal es una composición de funciones:
$f(x) = f_L(f_{L-1}(\dots f_1(x)\dots))$, donde cada capa aplica una transformación lineal seguida de una activación no lineal.

Funciones por tramos

Definidas por diferentes expresiones en diferentes intervalos.

Ejemplo: ReLU (Rectified Linear Unit): \(\text{ReLU}(x) = \begin{cases} x & \text{si } x \geq 0 \\ 0 & \text{si } x < 0 \end{cases}\)

Aplicación: Función de activación más usada en DL.

7. Funciones de activación

Sigmoide

\(\sigma(x) = \frac{1}{1 + e^{-x}}\)

Ejemplo paso a paso:

Aplicación: Regresión logística (salida entre 0 y 1), compuertas en LSTM.

Tanh

\(\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}\)

Ejemplo paso a paso:

Aplicación: Función de activación en RNNs, centrada en cero.

ReLU

\(\text{ReLU}(x) = \max(0, x)\)

Ejemplo paso a paso:

Aplicación: Función de activación por defecto en CNN y MLP.

8. Concepto de función de pérdida

Una función de pérdida $L(y, \hat{y})$ mide la discrepancia entre el valor real $y$ y el valor predicho $\hat{y}$.

Definición general

\(L(\theta) = \frac{1}{n} \sum_{i=1}^{n} \ell(y_i, \hat{y}_i)\) donde $\ell$ es la pérdida por ejemplo, y $\theta$ son los parámetros del modelo.

Ejemplos intuitivos

Distancia entre números (regresión): Error cuadrático medio \(\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)

Diferencia entre probabilidades (clasificación): Entropía cruzada \(\text{Cross-Entropy} = -\sum_{i=1}^{n} y_i \log(\hat{y}_i)\) donde $y_i \in {0,1}$ y $\hat{y}_i \in [0,1]$ es la probabilidad predicha.

Ejemplo paso a paso (MSE):
Valores reales: $y = [3, -0.5, 2, 7]$
Predicciones: $\hat{y} = [2.5, 0.0, 2, 8]$
Diferencias: $[0.5, -0.5, 0, -1]$
Cuadrados: $[0.25, 0.25, 0, 1]$
Suma: $1.5$
MSE = $1.5 / 4 = 0.375$

Ejemplo paso a paso (Cross-Entropy):
Clasificación binaria, $y = 1$, $\hat{y} = 0.8$
Pérdida: $-\log(0.8) \approx -(-0.223) = 0.223$
Si $y = 0$, $\hat{y} = 0.1$: pérdida $-\log(0.9) \approx 0.105$ (notar que para $y=0$ usamos $-\log(1-\hat{y})$)


Aplicaciones prácticas

Machine Learning (ML)

Regresión lineal (función lineal)

Modelo: $\hat{y} = w^T x + b$
Es una función lineal de las características $x$. Los parámetros $w$ (pesos) y $b$ (sesgo) se aprenden minimizando una función de pérdida como MSE.

Ecuación:
\(\hat{y} = \sum_{j=1}^{n} w_j x_j + b\) Aquí aparece una sumatoria (tema de la semana) sobre las características.

Regresión logística (sigmoide, softmax)

Modelo de clasificación binaria:
\(P(y=1|x) = \sigma(w^T x + b) = \frac{1}{1 + e^{-(w^T x + b)}}\) La función sigmoide transforma una combinación lineal en una probabilidad entre 0 y 1.

Para clasificación multiclase, se usa softmax:
\(P(y=k|x) = \frac{e^{w_k^T x + b_k}}{\sum_{j=1}^{K} e^{w_j^T x + b_j}}\) Aquí aparecen exponenciales y una sumatoria en el denominador.

SVM (kernel RBF: exponencial)

El kernel RBF (Radial Basis Function) mide similitud entre dos puntos: \(K(x, x') = \exp\left(-\gamma \|x - x'\|^2\right)\) Es una función exponencial aplicada a una distancia.

Entropía (logaritmo)

La entropía mide la incertidumbre en una distribución de probabilidad: \(H(S) = -\sum_{i=1}^{n} p_i \log_2 p_i\) Aparece una sumatoria y un logaritmo. En árboles de decisión, se usa para medir la impureza.

Funciones de pérdida (log-loss)

La log-loss (entropía cruzada binaria) es: \(L = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]\) Combina sumatoria y logaritmo.

Deep Learning (DL)

Perceptrón (función lineal + activación)

Un perceptrón es la unidad básica de una red neuronal: \(\text{salida} = f(w^T x + b)\) donde $f$ es una función de activación (ReLU, sigmoide, tanh). Aquí se combina una función lineal (suma ponderada) con una función no lineal.

Funciones de activación (ReLU, GELU)

Positional encoding (seno/coseno)

En Transformers, se añade información de posición: \(PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)\) Son funciones trigonométricas aplicadas a la posición.

RNN (tanh, sigmoide)

En una RNN, el estado oculto se actualiza como: \(h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)\) Aparece la función tanh (o sigmoide en LSTMs).

Atención (softmax)

El mecanismo de atención calcula pesos normalizados: \(\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k} \exp(e_{ik})}\) donde $e_{ij}$ son puntuaciones de atención. Aquí se usa exponencial y sumatoria (softmax).