Sesión 11: Razonamiento y Capacidades Emergentes

1. Logro de la sesión

Evaluar técnicas de prompting para razonamiento y diseñar evaluaciones robustas de factualidad y consistencia.

2. Marco y alcance

Esta sesión combina teoría, formalización matemática y decisiones de ingeniería para construir soluciones NLP robustas y reproducibles.

Dimensión	Pregunta guía	Entregable esperado
Lingüística	¿Qué fenómeno modelamos?	Definición operativa del problema
Estadística	¿Qué objetivo y supuestos usamos?	Modelo con límites explícitos
Ingeniería	¿Cómo aseguramos reproducibilidad?	Pipeline versionado y trazable
Producto	¿Qué error es tolerable?	Métricas y SLA alineados

3. Fundamentos conceptuales

3.1 Capacidades emergentes

Aptitudes que aparecen al escalar datos/modelo.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.2 Zero-shot/few-shot

Condicionamiento por instrucciones y ejemplos.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.3 Chain-of-thought

Descomposición explícita de pasos intermedios.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.4 Self-consistency

Muestrear rutas y agregar respuestas para robustez.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.5 Tool use

Combinación de LLM con herramientas verificables.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.6 Alucinación

Respuesta plausible pero no sustentada.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.7 Evaluación factual

Comparación contra fuentes de verdad.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

3.8 Seguridad de razonamiento

Mitigar prompts adversariales y sobreconfianza.

Implicaciones prácticas:

Decisión de diseño que habilita este concepto.
Riesgo si el supuesto central no se cumple.
Señal observable para validar funcionamiento en datos reales.

4. Fundamentos matemáticos

Probabilidad de secuencia:

\[P(w_{1:n}) = \prod_{t=1}^{n} P(w_t \mid w_{1:t-1})\]

Objetivo de entrenamiento regularizado:

\[\min_{\theta} \frac{1}{N}\sum_{i=1}^{N}\mathcal{L}(f_\theta(x_i), y_i) + \lambda\,\Omega(\theta)\]

Entropía cruzada multiclase:

\[\mathcal{L}_{CE} = -\sum_{c=1}^{C} y_c\log(\hat{y}_c)\]

Perplejidad:

\[PP = \exp\left(-\frac{1}{N}\sum_{t=1}^{N}\log P(w_t\mid w_{<t})\right)\]

Relación sesgo-varianza (forma conceptual):

\[Error_{gen} = Error_{train} + Error_{complejidad}\]

5. Historia y protagonistas

NLP moderno es acumulativo: avances teóricos, de cómputo y de evaluación.

Investigador/a	Contribución relacionada	Lectura en esta sesión
Jason Wei	Chain-of-thought prompting.	Referente para contextualizar decisiones metodológicas actuales
Xuezhi Wang	Self-consistency para robustez.	Referente para contextualizar decisiones metodológicas actuales
Yao Fu	Estudios de emergencia de capacidades.	Referente para contextualizar decisiones metodológicas actuales
Sebastian Bubeck	Análisis de capacidades avanzadas en práctica.	Referente para contextualizar decisiones metodológicas actuales

Línea temporal breve:

1950-1980: bases simbólicas y probabilísticas.
1980-2010: consolidación estadística y modelos clásicos.
2010-2017: embeddings distribuidos y deep learning.
2017-actualidad: transformers, eficiencia y gobernanza.

6. Metodología y pipeline

6.1 Definir caso de uso y variable objetivo.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.2 Establecer corpus y criterios de calidad.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.3 Diseñar preprocesamiento reproducible.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.4 Construir baseline interpretable.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.5 Entrenar modelo principal de sesión.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.6 Validar con métricas técnicas y de negocio.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.7 Analizar errores críticos.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

6.8 Planificar despliegue y monitoreo.

Control mínimo de calidad:

Registrar versión de datos y configuración.
Separar estrictamente train/valid/test.
Medir una métrica de proceso y una de resultado.
Documentar decisiones para mantenimiento futuro.

7. Evaluación y validación

Escenario	Métricas sugeridas	Criterio de interpretación
Clasificación	F1 macro, precisión, recall	Evitar depender solo de accuracy
Etiquetado secuencial	F1 por clase/entidad	Reportar clases raras por separado
Generación	BLEU/ROUGE + evaluación humana	Fluidez no garantiza fidelidad factual
Operación	Latencia p95, throughput, costo	Score alto sin SLA no es suficiente

Principios de evaluación:

Desagregar métricas por segmento crítico.
Comparar solo con protocolos equivalentes.
Combinar evidencia cuantitativa y cualitativa.
Conectar métricas con decisiones de despliegue.

8. Casos aplicados y decisiones de producto

8.1 Atención al cliente e intención

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.2 Extracción de entidades en documentos

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.3 Resumen y control de factualidad

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.4 Búsqueda semántica y recuperación

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.5 Moderación de contenido

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

8.6 Asistentes internos con trazabilidad

Checklist de despliegue:

Definir umbral para automatizar vs escalar a humano.
Instrumentar observabilidad técnica y de negocio.
Diseñar estrategia de rollback.
Revisar cumplimiento legal y privacidad.

9. Implementación orientativa en Python

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score

df = pd.DataFrame({
    "texto": ["consulta urgente", "mensaje informativo", "reclamo de servicio", "agradecimiento"],
    "label": [1, 0, 1, 0],
})

X_train, X_test, y_train, y_test = train_test_split(
    df["texto"], df["label"], test_size=0.5, random_state=42, stratify=df["label"]
)

pipe = Pipeline([
    ("tfidf", TfidfVectorizer(ngram_range=(1, 2))),
    ("clf", LogisticRegression(max_iter=1000)),
])

pipe.fit(X_train, y_train)
pred = pipe.predict(X_test)
print("F1:", f1_score(y_test, pred, zero_division=0))

10. Glosario técnico mínimo

Corpus: Colección de textos usada para análisis y entrenamiento.
Token: Unidad elemental que consume el modelo.
Vocabulario: Conjunto de tokens válidos según tokenizador.
OOV: Términos fuera de vocabulario observado.
Data leakage: Fuga de información entre etapas de evaluación.
Drift: Cambio de distribución en datos o etiquetas.
Latencia p95: Percentil operativo de tiempo de respuesta.
Guardrail: Regla de seguridad en entrada/salida del sistema.

Referencias bibliográficas principales

Jurafsky, D., & Martin, J. H. Speech and Language Processing.
Manning, C., Raghavan, P., & Schutze, H. Introduction to Information Retrieval.
Eisenstein, J. Introduction to Natural Language Processing.
Goldberg, Y. Neural Network Methods for NLP.
Goodfellow, I., Bengio, Y., & Courville, A. Deep Learning.
Vaswani, A., et al. (2017). Attention Is All You Need.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers.
Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with T5.
Hu, E., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models.
Conneau, A., et al. (2020). Cross-lingual Representation Learning at Scale.