Sesión 5: Clasificación de Texto con ML Clásico
1. Logro de la sesión
Implementar pipelines de clasificación textual con TF-IDF y modelos lineales robustos de bajo costo.
2. Marco y alcance
Esta sesión combina teoría, formalización matemática y decisiones de ingeniería para construir soluciones NLP robustas y reproducibles.
| Dimensión | Pregunta guía | Entregable esperado |
|---|---|---|
| Lingüística | ¿Qué fenómeno modelamos? | Definición operativa del problema |
| Estadística | ¿Qué objetivo y supuestos usamos? | Modelo con límites explícitos |
| Ingeniería | ¿Cómo aseguramos reproducibilidad? | Pipeline versionado y trazable |
| Producto | ¿Qué error es tolerable? | Métricas y SLA alineados |
3. Fundamentos conceptuales
3.1 Vectorización BoW/TF-IDF
Transforma texto en matriz dispersa para modelos lineales.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.2 Naive Bayes multinomial
Baseline simple y competitivo en escenarios de pocos recursos.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.3 Regresión logística
Modelo discriminativo probabilístico interpretable.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.4 SVM lineal
Maximiza margen y suele rendir muy bien en texto sparse.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.5 Regularización L1/L2
Controla sobreajuste y ayuda selección de features.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.6 Desbalance de clases
Requiere métricas y pesos de clase adecuados.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.7 Interpretabilidad
Coeficientes y términos influyentes por clase.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
3.8 Despliegue productivo
Modelos lineales son livianos y fáciles de mantener.
Implicaciones prácticas:
- Decisión de diseño que habilita este concepto.
- Riesgo si el supuesto central no se cumple.
- Señal observable para validar funcionamiento en datos reales.
4. Fundamentos matemáticos
Probabilidad de secuencia:
\[P(w_{1:n}) = \prod_{t=1}^{n} P(w_t \mid w_{1:t-1})\]Objetivo de entrenamiento regularizado:
\[\min_{\theta} \frac{1}{N}\sum_{i=1}^{N}\mathcal{L}(f_\theta(x_i), y_i) + \lambda\,\Omega(\theta)\]Entropía cruzada multiclase:
\[\mathcal{L}_{CE} = -\sum_{c=1}^{C} y_c\log(\hat{y}_c)\]Perplejidad:
\[PP = \exp\left(-\frac{1}{N}\sum_{t=1}^{N}\log P(w_t\mid w_{<t})\right)\]Relación sesgo-varianza (forma conceptual):
\[Error_{gen} = Error_{train} + Error_{complejidad}\]5. Historia y protagonistas
NLP moderno es acumulativo: avances teóricos, de cómputo y de evaluación.
| Investigador/a | Contribución relacionada | Lectura en esta sesión |
|---|---|---|
| Joachims | Uso temprano de SVM en categorización textual. | Referente para contextualizar decisiones metodológicas actuales |
| Cortes y Vapnik | Fundamentos del margen máximo. | Referente para contextualizar decisiones metodológicas actuales |
| Trevor Hastie | Marco estadístico de modelos lineales. | Referente para contextualizar decisiones metodológicas actuales |
| Christopher Manning | Práctica de IR y clasificación textual. | Referente para contextualizar decisiones metodológicas actuales |
Línea temporal breve:
- 1950-1980: bases simbólicas y probabilísticas.
- 1980-2010: consolidación estadística y modelos clásicos.
- 2010-2017: embeddings distribuidos y deep learning.
- 2017-actualidad: transformers, eficiencia y gobernanza.
6. Metodología y pipeline
6.1 Definir caso de uso y variable objetivo.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.2 Establecer corpus y criterios de calidad.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.3 Diseñar preprocesamiento reproducible.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.4 Construir baseline interpretable.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.5 Entrenar modelo principal de sesión.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.6 Validar con métricas técnicas y de negocio.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.7 Analizar errores críticos.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
6.8 Planificar despliegue y monitoreo.
Control mínimo de calidad:
- Registrar versión de datos y configuración.
- Separar estrictamente train/valid/test.
- Medir una métrica de proceso y una de resultado.
- Documentar decisiones para mantenimiento futuro.
7. Evaluación y validación
| Escenario | Métricas sugeridas | Criterio de interpretación |
|---|---|---|
| Clasificación | F1 macro, precisión, recall | Evitar depender solo de accuracy |
| Etiquetado secuencial | F1 por clase/entidad | Reportar clases raras por separado |
| Generación | BLEU/ROUGE + evaluación humana | Fluidez no garantiza fidelidad factual |
| Operación | Latencia p95, throughput, costo | Score alto sin SLA no es suficiente |
Principios de evaluación:
- Desagregar métricas por segmento crítico.
- Comparar solo con protocolos equivalentes.
- Combinar evidencia cuantitativa y cualitativa.
- Conectar métricas con decisiones de despliegue.
8. Casos aplicados y decisiones de producto
8.1 Atención al cliente e intención
Checklist de despliegue:
- Definir umbral para automatizar vs escalar a humano.
- Instrumentar observabilidad técnica y de negocio.
- Diseñar estrategia de rollback.
- Revisar cumplimiento legal y privacidad.
8.2 Extracción de entidades en documentos
Checklist de despliegue:
- Definir umbral para automatizar vs escalar a humano.
- Instrumentar observabilidad técnica y de negocio.
- Diseñar estrategia de rollback.
- Revisar cumplimiento legal y privacidad.
8.3 Resumen y control de factualidad
Checklist de despliegue:
- Definir umbral para automatizar vs escalar a humano.
- Instrumentar observabilidad técnica y de negocio.
- Diseñar estrategia de rollback.
- Revisar cumplimiento legal y privacidad.
8.4 Búsqueda semántica y recuperación
Checklist de despliegue:
- Definir umbral para automatizar vs escalar a humano.
- Instrumentar observabilidad técnica y de negocio.
- Diseñar estrategia de rollback.
- Revisar cumplimiento legal y privacidad.
8.5 Moderación de contenido
Checklist de despliegue:
- Definir umbral para automatizar vs escalar a humano.
- Instrumentar observabilidad técnica y de negocio.
- Diseñar estrategia de rollback.
- Revisar cumplimiento legal y privacidad.
8.6 Asistentes internos con trazabilidad
Checklist de despliegue:
- Definir umbral para automatizar vs escalar a humano.
- Instrumentar observabilidad técnica y de negocio.
- Diseñar estrategia de rollback.
- Revisar cumplimiento legal y privacidad.
9. Implementación orientativa en Python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score
df = pd.DataFrame({
"texto": ["consulta urgente", "mensaje informativo", "reclamo de servicio", "agradecimiento"],
"label": [1, 0, 1, 0],
})
X_train, X_test, y_train, y_test = train_test_split(
df["texto"], df["label"], test_size=0.5, random_state=42, stratify=df["label"]
)
pipe = Pipeline([
("tfidf", TfidfVectorizer(ngram_range=(1, 2))),
("clf", LogisticRegression(max_iter=1000)),
])
pipe.fit(X_train, y_train)
pred = pipe.predict(X_test)
print("F1:", f1_score(y_test, pred, zero_division=0))
10. Glosario técnico mínimo
- Corpus: Colección de textos usada para análisis y entrenamiento.
- Token: Unidad elemental que consume el modelo.
- Vocabulario: Conjunto de tokens válidos según tokenizador.
- OOV: Términos fuera de vocabulario observado.
- Data leakage: Fuga de información entre etapas de evaluación.
- Drift: Cambio de distribución en datos o etiquetas.
- Latencia p95: Percentil operativo de tiempo de respuesta.
- Guardrail: Regla de seguridad en entrada/salida del sistema.
Referencias bibliográficas principales
- Jurafsky, D., & Martin, J. H. Speech and Language Processing.
- Manning, C., Raghavan, P., & Schutze, H. Introduction to Information Retrieval.
- Eisenstein, J. Introduction to Natural Language Processing.
- Goldberg, Y. Neural Network Methods for NLP.
- Goodfellow, I., Bengio, Y., & Courville, A. Deep Learning.
- Vaswani, A., et al. (2017). Attention Is All You Need.
- Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers.
- Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with T5.
- Hu, E., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models.
- Conneau, A., et al. (2020). Cross-lingual Representation Learning at Scale.