Sesión 5: Clasificación de Texto con ML Clásico

1. Logro de la sesión

Implementar pipelines de clasificación textual con TF-IDF y modelos lineales robustos de bajo costo.

2. Marco y alcance

Esta sesión combina teoría, formalización matemática y decisiones de ingeniería para construir soluciones NLP robustas y reproducibles.

Dimensión	Pregunta guía	Entregable esperado
Lingüística	¿Qué fenómeno modelamos?	Definición operativa del problema
Estadística	¿Qué objetivo y supuestos usamos?	Modelo con límites explícitos
Ingeniería	¿Cómo aseguramos reproducibilidad?	Pipeline versionado y trazable
Producto	¿Qué error es tolerable?	Métricas y SLA alineados

3. Fundamentos conceptuales

3.1 Vectorización BoW/TF-IDF

Transforma texto en matriz dispersa para modelos lineales.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.2 Naive Bayes multinomial

Baseline simple y competitivo en escenarios de pocos recursos.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.3 Regresión logística

Modelo discriminativo probabilístico interpretable.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.4 SVM lineal

Maximiza margen y suele rendir muy bien en texto sparse.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.5 Regularización L1/L2

Controla sobreajuste y ayuda selección de features.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.6 Desbalance de clases

Requiere métricas y pesos de clase adecuados.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.7 Interpretabilidad

Coeficientes y términos influyentes por clase.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.8 Despliegue productivo

Modelos lineales son livianos y fáciles de mantener.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

4. Fundamentos matemáticos

Probabilidad de secuencia:

\[P(w_{1:n}) = \prod_{t=1}^{n} P(w_t \mid w_{1:t-1})\]

Objetivo de entrenamiento regularizado:

\[\min_{\theta} \frac{1}{N}\sum_{i=1}^{N}\mathcal{L}(f_\theta(x_i), y_i) + \lambda\,\Omega(\theta)\]

Entropía cruzada multiclase:

\[\mathcal{L}_{CE} = -\sum_{c=1}^{C} y_c\log(\hat{y}_c)\]

Perplejidad:

\[PP = \exp\left(-\frac{1}{N}\sum_{t=1}^{N}\log P(w_t\mid w_{<t})\right)\]

Relación sesgo-varianza (forma conceptual):

\[Error_{gen} = Error_{train} + Error_{complejidad}\]

5. Historia y protagonistas

NLP moderno es acumulativo: avances teóricos, de cómputo y de evaluación.

Investigador/a	Contribución relacionada	Lectura en esta sesión
Joachims	Uso temprano de SVM en categorización textual.	Referente para contextualizar decisiones metodológicas actuales
Cortes y Vapnik	Fundamentos del margen máximo.	Referente para contextualizar decisiones metodológicas actuales
Trevor Hastie	Marco estadístico de modelos lineales.	Referente para contextualizar decisiones metodológicas actuales
Christopher Manning	Práctica de IR y clasificación textual.	Referente para contextualizar decisiones metodológicas actuales

Línea temporal breve:

1950-1980: bases simbólicas y probabilísticas.
1980-2010: consolidación estadística y modelos clásicos.
2010-2017: embeddings distribuidos y deep learning.
2017-actualidad: transformers, eficiencia y gobernanza.

6. Metodología y pipeline

6.1 Definir caso de uso y variable objetivo.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.2 Establecer corpus y criterios de calidad.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.3 Diseñar preprocesamiento reproducible.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.4 Construir baseline interpretable.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.5 Entrenar modelo principal de sesión.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.6 Validar con métricas técnicas y de negocio.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.7 Analizar errores críticos.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.8 Planificar despliegue y monitoreo.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

7. Evaluación y validación

Escenario	Métricas sugeridas	Criterio de interpretación
Clasificación	F1 macro, precisión, recall	Evitar depender solo de accuracy
Etiquetado secuencial	F1 por clase/entidad	Reportar clases raras por separado
Generación	BLEU/ROUGE + evaluación humana	Fluidez no garantiza fidelidad factual
Operación	Latencia p95, throughput, costo	Score alto sin SLA no es suficiente

Principios de evaluación:

Desagregar métricas por segmento crítico.
Comparar solo con protocolos equivalentes.
Combinar evidencia cuantitativa y cualitativa.
Conectar métricas con decisiones de despliegue.

8. Casos aplicados y decisiones de producto

8.1 Atención al cliente e intención

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.2 Extracción de entidades en documentos

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.3 Resumen y control de factualidad

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.4 Búsqueda semántica y recuperación

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.5 Moderación de contenido

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.6 Asistentes internos con trazabilidad

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

9. Implementación orientativa en Python

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score

df = pd.DataFrame({
    "texto": ["consulta urgente", "mensaje informativo", "reclamo de servicio", "agradecimiento"],
    "label": [1, 0, 1, 0],
})

X_train, X_test, y_train, y_test = train_test_split(
    df["texto"], df["label"], test_size=0.5, random_state=42, stratify=df["label"]
)

pipe = Pipeline([
    ("tfidf", TfidfVectorizer(ngram_range=(1, 2))),
    ("clf", LogisticRegression(max_iter=1000)),
])

pipe.fit(X_train, y_train)
pred = pipe.predict(X_test)
print("F1:", f1_score(y_test, pred, zero_division=0))

10. Glosario técnico mínimo

Corpus: Colección de textos usada para análisis y entrenamiento.
Token: Unidad elemental que consume el modelo.
Vocabulario: Conjunto de tokens válidos según tokenizador.
OOV: Términos fuera de vocabulario observado.
Data leakage: Fuga de información entre etapas de evaluación.
Drift: Cambio de distribución en datos o etiquetas.
Latencia p95: Percentil operativo de tiempo de respuesta.
Guardrail: Regla de seguridad en entrada/salida del sistema.

Referencias bibliográficas principales

Jurafsky, D., & Martin, J. H. Speech and Language Processing.
Manning, C., Raghavan, P., & Schutze, H. Introduction to Information Retrieval.
Eisenstein, J. Introduction to Natural Language Processing.
Goldberg, Y. Neural Network Methods for NLP.
Goodfellow, I., Bengio, Y., & Courville, A. Deep Learning.
Vaswani, A., et al. (2017). Attention Is All You Need.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers.
Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with T5.
Hu, E., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models.
Conneau, A., et al. (2020). Cross-lingual Representation Learning at Scale.