Analizan el rol del NLP tradicional en la era de la IA generativa en The DataPub de mayo
29 de Mayo de 2026
Este miércoles 27 de mayo se llevó a cabo una nueva edición de The DataPub, en la sede Mixcoac de la Escuela de Gobierno y Transformación Pública, iniciativa que busca consolidar una comunidad de ciencia de datos, inteligencia artificial y política pública a través de encuentros periódicos entre especialistas, estudiantes y profesionales del sector.
En esta ocasión, el expositor invitado fue Carlos Vargas, doctor en procesamiento de lenguaje natural (NLP, por sus siglas en inglés) y actual responsable de IA generativa en Mercado Libre. Su exposición, titulada "NLP tradicional en la era de GenAI", abordó el papel que siguen teniendo las técnicas clásicas de NLP frente al auge de los grandes modelos de lenguaje (LLMs).
La conferencia giró alrededor de mostrar la importancia de entender los fundamentos del procesamiento de lenguaje natural —las técnicas clásicas de clasificación, recuperación de información y modelado estadístico de texto— que siguen siendo indispensables incluso en la era de los LLMs. Vargas enfatizó que, aunque herramientas como ChatGPT, Gemini o Claude permiten desarrollar aplicaciones funcionales con gran rapidez, los problemas reales aparecen cuando los modelos fallan en producción. En ese contexto, comprender cómo funcionan internamente los sistemas se vuelve esencial para diagnosticar errores, interpretar decisiones y construir arquitecturas robustas.
"Cuando las cosas se rompen, hay que entender qué se rompió y cómo solucionarlo", fue una de las frases que sintetizó el espíritu de la charla.
Asimismo, desde el inicio de la sesión, Carlos Vargas dejó claro que la conferencia no pretendía posicionarse "en contra" de la IA generativa. Entre los principales disclaimers de la presentación destacó que ninguna solución debía entenderse como definitiva y que muchas arquitecturas modernas pueden beneficiarse enormemente del uso de LLMs. También señaló que, en la práctica, suele asumirse que la primera opción para resolver cualquier problema será un modelo generativo antes que una técnica tradicional de NLP.
A partir de tres casos prácticos —routers conversacionales, arquitecturas RAG y análisis de flujos conversacionales— el expositor mostró cómo técnicas clásicas de NLP, recuperación de información y Machine Learning continúan siendo relevantes incluso dentro de sistemas modernos de IA generativa.
En el primero de los escenarios, Vargas presentó el problema de los routers en los chatbots, sistemas encargados de decidir automáticamente hacia dónde debe dirigirse una consulta de usuario. A través del ejemplo de un asistente para recursos humanos, explicó cómo una misma pregunta puede requerir rutas distintas: desde un sistema transaccional para tramitar vacaciones hasta un agente contextualizado basado en RAG para responder dudas informativas. Aunque estas tareas pueden resolverse utilizando directamente un LLM, el expositor señaló que modelos clásicos de clasificación continúan ofreciendo ventajas importantes en interpretabilidad, diagnóstico de errores y latencia. Parte importante de la discusión se centró precisamente en cómo los modelos generativos pueden producir resultados funcionales, pero difíciles de auditar cuando algo sale mal.
El segundo escenario estuvo dedicado a arquitecturas RAG (Retrieval-Augmented Generation), actualmente utilizadas para conectar modelos generativos con bases de documentos internos, reportes corporativos o repositorios empresariales. Vargas explicó algunos de los desafíos asociados a trabajar con grandes volúmenes de información, particularmente problemas relacionados con embeddings, recuperación semántica, ventanas extensas de contexto, costos computacionales y pérdida de precisión cuando los documentos son semánticamente similares entre sí —como ocurre, por ejemplo, con reportes de ventas mensuales donde cambian los números, pero no la estructura del texto. En esos casos, la similitud de coseno entre documentos puede ser tan alta que el sistema recupera documentos incorrectos.
Sin embargo, recurrir directamente a búsqueda léxica como BM25 tampoco resuelve el problema por sí solo; si los documentos no han sido preprocesados adecuadamente como normalización de mayúsculas, remoción de puntuación, stemming o lematización, el modelo simplemente no encuentra los términos buscados. El argumento central no fue que una técnica sea superior a la otra, sino que las arquitecturas híbridas, que combinan búsqueda semántica y léxica, suelen ofrecer mejores resultados en producción.
El tercer escenario abordó el análisis de conversaciones en chatbots y flujos conversacionales. Vargas mostró cómo, en producción, los usuarios suelen desviarse completamente de los caminos previstos por los diseñadores del sistema, generando conversaciones difíciles de controlar o clasificar. Frente a ello, explicó cómo herramientas tradicionales de NLP continúan siendo útiles para identificar patrones, entender fallos y rediseñar arquitecturas conversacionales. Entre ellas destacó el reconocimiento de entidades (NER) para detectar en qué momento una conversación se desvía del tema previsto y el modelado de tópicos con LDA (Latent Dirichlet Allocation) para identificar de qué hablan realmente los usuarios a lo largo de miles de conversaciones. Un punto interesante fue cómo propuso combinar ambos enfoques: entrenar un modelo LDA para obtener los clusters temáticos y luego usar un LLM para etiquetar esos clusters con nombres coherentes, aprovechando así lo mejor de las técnicas clásicas y las generativas. Con esa combinación, el análisis descriptivo de las conversaciones, en qué nodo se atascan los usuarios, qué tópicos aparecen antes de que el flujo se rompa, se vuelve mucho más accionable.
Más allá de la discusión técnica, la edición de mayo de The DataPub reflejó el creciente interés por construir espacios interdisciplinarios donde converjan inteligencia artificial, ciencia de datos, industria y política pública. En un momento marcado por el rápido crecimiento de GenAI y la adopción masiva de LLMs, la charla dejó una idea clara: los modelos generativos han transformado el panorama tecnológico, pero comprender los fundamentos continúa siendo esencial para desarrollar sistemas robustos, interpretables y útiles en producción.
La sesión reunió a más de 50 asistentes en una tarde de conversación técnica, networking y discusión sobre algunos de los retos más relevantes que enfrenta actualmente la inteligencia artificial generativa. Además de la conferencia principal, el encuentro incluyó espacios de convivencia entre participantes, rifas de libros mediante dinámicas por ternas y conversaciones abiertas sobre industria, arquitectura de sistemas y aplicaciones reales de IA en entornos empresariales.