Trece tesis sobre machine learning
09 de Junio de 2026
Adolfo De Unánue
Profesor-investigador
Fernanda Sobrino
Profesora-investigadora
La comunidad de ciencia de datos ha construido un conjunto de prácticas, supuestos y criterios de evaluación que rara vez se examinan con suficiente profundidad. Validación cruzada con mezclas aleatorias de datos, uso de la importancia de variables como si fuera una explicación causal, modelos asumidos como transferibles entre organizaciones, métricas globales como AUC y optimización de una sola función de pérdida como si agotara la complejidad del problema. Estos no son únicamente errores técnicos: son síntomas de una epistemología equivocada.
Cuando una fiscalía despliega un modelo de machine learning para priorizar carpetas de investigación, el modelo no observa una distribución estática de viabilidad de los casos. La modifica. Al intervenir sobre qué casos reciben atención, qué testigos se entrevistan y qué evidencia se analiza, el modelo participa en el sistema que pretende describir. En otras palabras, el modelo no solo representa una realidad: también la transforma.
A partir de esta idea, proponemos trece tesis para repensar qué es, qué hace y cómo debe evaluarse el machine learning, especialmente cuando se aplica en contextos institucionales, públicos y organizacionales.
I. Un modelo bien entrenado es la mejor representación disponible del sistema, dada la información existente
Un modelo no es la representación verdadera del sistema ni una teoría completa sobre su funcionamiento. Es, más bien, la mejor compresión disponible de las regularidades explotables que existen en los datos, en un momento específico y bajo ciertas condiciones concretas.
Esto implica reconocer dos cosas al mismo tiempo. Por un lado, los modelos pueden ofrecer información valiosa para mejorar decisiones. Por otro, esa información siempre está limitada por los datos disponibles, por la forma en que fueron producidos y por el contexto institucional en el que el modelo será utilizado.
II. El producto de datos es un sistema complejo adaptativo que coevoluciona con su objeto
Un modelo de machine learning en producción no observa pasivamente. Informa decisiones; esas decisiones modifican el sistema; el sistema modificado genera nuevos datos; y esos nuevos datos, a su vez, pueden modificar el modelo.
Este ciclo no es un efecto secundario ni una falla del proceso. Es la condición fundamental bajo la cual opera el machine learning aplicado. El llamado concept drift no debe entenderse únicamente como un problema técnico, sino como una consecuencia esperable de que el modelo participa en el sistema que modela.
Diseñar un producto de datos sin considerar esta relación es como diseñar un termostato ignorando que el termostato cambia la temperatura de la habitación. El modelo no está fuera del sistema: forma parte de él.
III. El modelo es radicalmente contextual y no puede trasladarse sin más
Si un modelo coevoluciona con un sistema particular, en una organización particular y en un momento particular, entonces trasladarlo a otro contexto no es una operación neutra. Es más parecido a trasplantar un órgano sin considerar la inmunología del receptor.
Esto contradice la narrativa de las soluciones off-the-shelf y la idea de que un modelo entrenado en una organización funcionará automáticamente en otra. Las regularidades que captura un modelo son locales en el espacio y en el tiempo. Por ello, cada despliegue requiere ajustes, revisión, reingeniería y comprensión profunda del contexto.
IV. El machine learning debe juzgarse performativamente
Un modelo no es bueno simplemente porque tenga propiedades formales elegantes, coeficientes interpretables o un buen desempeño abstracto. Es bueno si, al desplegarse, produce efectos deseables en el mundo.
Esto aplica a la predicción: ¿mejoraron las decisiones? Aplica a la explicación: ¿las personas que recibieron la explicación tomaron mejores decisiones gracias a ella? Y aplica también a la ética: ¿el despliegue del modelo redujo las injusticias concretas que pretendía atender?
El criterio central no es lo que el modelo es, sino lo que el modelo hace.
V. El machine learning no busca generalización en el sentido científico tradicional
La estadística clásica y la econometría suelen buscar parámetros poblacionales estables. En muchos casos, aspiran a descubrir regularidades generales o leyes del sistema. El machine learning aplicado, en cambio, busca predecir bien en el próximo conjunto de datos que enfrentará, dentro de un contexto temporal e institucional específico.
No busca verdades universales. Busca patrones útiles aquí y ahora. Esto no debe entenderse como una limitación menor, sino como parte de su naturaleza. Confundir el machine learning aplicado con una ciencia orientada a descubrir leyes generales es un error de categoría.
VI. El modelo no tiene que ser perfecto; tiene que ser mejor que la línea base
La línea base no es un modelo ideal ni una referencia teórica abstracta. Es lo que la organización ya está haciendo: una regla manual, un proceso burocrático, un sesgo informal o, incluso, la ausencia de acción.
Si el modelo mejora esa práctica existente, entonces puede ser útil. Esta idea se relaciona con el concepto de satisficing de Herbert Simon: en sistemas complejos, donde el óptimo cambia mientras intentamos alcanzarlo, la estrategia adecuada no siempre es optimizar, sino encontrar soluciones suficientemente buenas para actuar mejor.
Además, definir la línea base tiene una consecuencia política importante: obliga a la organización a hacer explícito su proceso actual. Muchas veces, ese proceso es opaco, informal o incómodo de reconocer. Pero sin una línea base clara, no es posible evaluar si el modelo realmente mejora algo.
VII. Los problemas de machine learning que valen la pena implican una acción y ocurren en el tiempo
Si de un modelo no se deriva una acción concreta —una inspección, una intervención, una asignación de recursos, una priorización—, entonces probablemente no hay un problema de machine learning que valga la pena resolver.
Y si hay acción, hay temporalidad. Las decisiones ocurren en un momento específico y sobre un sistema que cambia. Por eso, la validación cruzada debe ser temporal. Validar con mezclas aleatorias de datos equivale a simular un mundo donde el tiempo no existe para evaluar un sistema que solo existe en el tiempo.
Ignorar esta dimensión temporal produce una contradicción metodológica y epistemológica.
VIII. El espacio real de hiperparámetros incluye todo el producto de datos
El modelo no es únicamente el algoritmo y sus hiperparámetros formales. El modelo real es el producto de datos completo: algoritmo, selección de variables, definición de cohortes, estrategia de imputación, fuentes de datos, ventanas temporales, frecuencia de reentrenamiento, criterios de despliegue y mecanismos de monitoreo.
Cada una de estas decisiones funciona como un hiperparámetro. La búsqueda en este espacio ampliado no es solo una operación técnica, sino también una forma de explorar el sistema y comprender qué configuraciones producen mejores resultados bajo restricciones reales.
IX. El problema es necesariamente multiobjetivo, aunque el algoritmo no lo sepa
Un algoritmo individual optimiza una sola función de pérdida. Pero los problemas reales rara vez son unidimensionales. En la práctica, se deben equilibrar múltiples objetivos: precisión, recall, equidad entre grupos, estabilidad temporal, interpretabilidad operativa, costos de implementación y viabilidad institucional.
Ningún algoritmo optimiza todo esto simultáneamente. Es el producto de datos, mediante el entrenamiento de múltiples modelos, la evaluación de diversas métricas y la selección según las prioridades de los actores involucrados, el que navega el espacio multiobjetivo.
Esto tiene una consecuencia directa: los trade-offs entre fairness y performance no son propiedades inevitables de un algoritmo aislado. Dependen del espacio completo de configuraciones del producto de datos. Cuando se explora ese espacio, los supuestos sacrificios entre precisión y equidad muchas veces resultan menores de lo esperado.
X. Los modelos son sondas epistémicas, pero están mediadas por la estructura del algoritmo
Entrenar múltiples algoritmos sobre el mismo problema no es solo un ejercicio de selección de modelo. También es una forma de investigación. El comportamiento diferencial de los modelos puede revelar aspectos importantes sobre la estructura del sistema.
Sin embargo, lo que revelan no es la estructura del sistema en sí, sino la interacción entre esa estructura y las limitaciones del algoritmo utilizado. Por eso, la importancia de variables debe interpretarse con cuidado. No muestra causalidad ni revela directamente cómo funciona el sistema. Muestra cómo un algoritmo particular distribuyó su capacidad predictiva entre las variables disponibles en un momento específico.
Usar la importancia de variables como sustituto de una explicación causal o como guía automática para decidir sobre casos individuales es un error categorial: confunde un artefacto del instrumento de medición con una propiedad de lo medido.
XI. Las métricas que importan son precisión y recall en k
Los recursos para actuar siempre son finitos. Hay un número limitado de inspectores, camas, fiscales, visitas, intervenciones o presupuesto. Por ello, la pregunta relevante no es “¿qué tan bueno es el modelo en general?”, sino “¿qué tan bueno es en los primeros k casos sobre los que realmente puedo actuar?”.
Métricas globales como accuracy, AUC o F1 promedio pueden ser útiles en ciertos contextos, pero no responden la pregunta institucional más importante: ¿qué tan buena es la lista que se entrega al tomador de decisiones, considerando el tamaño real que puede procesar?
Además, la elección de k no es puramente técnica. Es una decisión institucional y política: cuántos recursos se asignan, a qué problema, con qué frecuencia y bajo qué prioridades.
XII. Las metas, la ética y las acciones son responsabilidad de los actores institucionales
La elección de la función objetivo, la definición de fairness, los criterios éticos y las acciones derivadas del modelo no son decisiones exclusivamente técnicas. Son decisiones políticas e institucionales.
El equipo técnico puede ofrecer el espacio de posibilidades, mostrar las consecuencias de cada elección y ayudar a evaluar alternativas. Pero la decisión sobre qué objetivo perseguir, qué desigualdad corregir, qué riesgo priorizar y qué acción tomar corresponde a los actores responsables del sistema.
Además, estas decisiones no son estáticas. Si el modelo interviene sobre el sistema y el sistema cambia, entonces las metas y los criterios apropiados también pueden cambiar. Por eso, no basta con definir los objetivos una vez y dejar el modelo funcionando indefinidamente. Se requiere un mecanismo institucional de revisión continua.
XIII. Esta perspectiva es materialista
Todo lo anterior descansa en tres compromisos materialistas.
Primero, el modelo es producto de condiciones materiales concretas: los datos disponibles, la infraestructura existente, las relaciones sociales que generan esos datos y las restricciones institucionales bajo las cuales se actúa.
Segundo, el criterio de verdad es la práctica. El valor del modelo no se encuentra en su correspondencia con una realidad abstracta, sino en los efectos concretos que produce al intervenir en el mundo.
Tercero, los sistemas que modelamos están constituidos por relaciones sociales e históricamente situadas. Las funciones objetivo codifican elecciones políticas, y esas elecciones reflejan intereses, prioridades y formas de distribuir recursos.
Desde esta perspectiva, los modelos no solo describen sistemas: contribuyen a constituirlos. Por eso, la práctica del machine learning no debe limitarse a interpretar datos, sino orientarse a transformar sistemas de manera responsable, situada y evaluable.
En conjunto, estas trece tesis proponen una manera distinta de comprender el machine learning aplicado. Los modelos no deben pensarse como representaciones neutrales de sistemas estables, sino como intervenciones situadas en sistemas complejos, temporales y políticamente estructurados.
Evaluar un modelo exige mirar más allá de sus métricas internas. Implica preguntar qué decisiones modifica, qué recursos reasigna, qué desigualdades reproduce o reduce, qué actores se benefician, qué costos genera y qué tipo de sistema ayuda a construir.
El reto, entonces, no es solo entrenar mejores modelos. Es diseñar mejores prácticas institucionales para usarlos.
Nota: Este blog está basado en el working paper Machine Learning as Performative Materialist Practice: Thirteen Theses on the Epistemology, Methodology, and Politics of Applied ML, de Adolfo De Unánue y Fernanda Sobrino. El documento completo puede consultarse en la sección de Working Papers de la EGobiernoyTP.
Amarasinghe, Kasun, Rayid Ghani, Andy Lai, Liliana Millan, y Kit T. Rodolfa. 2025. «Lessons learned from designing, developing, and deploying machine learning systems for social good». En AAAI Workshop on AI for Public Missions.
Callon, Michel. 1998. «Introduction: The embeddedness of economic markets in economics». En The laws of the markets, editado por Michel Callon, 1-57. Oxford: Blackwell.
Chouldechova, Alexandra. 2017. «Fair prediction with disparate impact: A study of bias in recidivism prediction instruments». Big data 5 (2): 153-63.
Kleinberg, Jon, Sendhil Mullainathan, y Manish Raghavan. 2016. «Inherent trade-offs in the fair determination of risk scores». arXiv preprint arXiv:1609.05807.
MacKenzie, Donald. 2006. An engine, not a camera: How financial models shape markets. Cambridge, MA: MIT Press.
Perdomo, Juan C., Tijana Zrnic, Celestine Mendler-Dünner, y Moritz Hardt. 2020. «Performative prediction». En Proceedings of the 37th International Conference on Machine Learning (ICML), 119:7599-7609. Pmlr.
Pickering, Andrew. 2010. The cybernetic brain: Sketches of another future. University of Chicago Press.
Rodolfa, Kit T., Hemank Lamba, y Rayid Ghani. 2020. «Machine learning for public policy: Do we need to sacrifice accuracy to make models fair?». arXiv preprint arXiv:2012.02972.
———. 2021. «Empirical observation of negligible fairness–accuracy trade-offs in machine learning for public policy». Nature machine intelligence 3: 896-904.
Rodolfa, Kit T., Erika Salomon, Lauren Haynes, Iván Higuera Mendieta, Jamie Larson, y Rayid Ghani. 2020. «Case study: Predictive fairness to reduce misdemeanor recidivism through social service interventions». En Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency (FAT*), 142-53.
Sculley, D., Gary Holt, Daniel Golovin, Eugene Davydov, Todd Phillips, Dietmar Ebner, Vinay Chaudhary, Michael Young, Jean-François Crespo, y Dan Dennison. 2015. «Hidden technical debt in machine learning systems». En Advances in neural information processing systems, 28:2503-11.
Simon, Herbert A. 1956. «Rational choice and the structure of the environment». Psychological review 63 (2): 129-38.
Sobrino, Fernanda, Adolfo De Unánue T., Edgar Hernández, Patricia Villa, Elena Villalobos, David Aké, Stephany Cisneros, Cristian Paul Camacho Osnay, Armando García Neri, y Israel Hernández. 2026. «Designing AI for prosecutorial governance: Case prioritization and statutory oversight in Mexico». arXiv preprint arXiv:2601.00396.