Entre cultura alimentaria y aprendizaje automático: el desafío de traducir la dieta mexicana en datos
28 de Julio de 2025

Daira Vanessa Puga Navarrete

David Contreras Loya

Linda Aurora Morales
Introducción
Nuestra alimentación juega un papel fundamental en la salud humana y la prevención de enfermedades. En la actualidad, se reconoce que existe una fuerte relación entre los hábitos alimenticios y obesidad, enfermedad cardiovascular, diabetes tipo 2, e incluso algunos tipos de cáncer.
En México, durante 2024, más del 75% de la población presenta algún grado de malnutrición, desde desnutrición hasta obesidad1. El problema no se limita a los adultos, ya que en niñas y niños de 5 a 11 años la prevalencia de obesidad es de 15.7%, y de sobrepeso en 18.5%. En la adolescencia, 16.7% presenta obesidad y 21.4% sobrepeso. En el otro extremo, 16.2% de los menores de 5 años tienen baja talla, cuando en 2022 eran solo 12.8% (INSP, 2024).
Por otro lado, el 44.6% de los hogares presentan algún nivel de inseguridad alimentaria. Esto significa que 25.8% presentan preocupación por el acceso a los alimentos y, si la falta de acceso se prolonga, sacrifican la calidad de la dieta (inseguridad leve). El 9.7% reportan restricciones en la cantidad de los alimentos consumidos (inseguridad moderada) y en 9.0% de los hogares alguno de los integrantes omite tiempos de comida o deja de comer en todo un día debido a la falta de dinero o de recursos para adquirir alimentos (inseguridad severa) (INSP, 2024).
Las enfermedades crónicas relacionadas con la dieta representan una de las principales causas de mortalidad y gasto en salud, lo que hace urgente entender no solo qué comemos, sino cómo lo comemos. No obstante, poco se conoce sobre los hábitos alimenticios de las y los mexicanos. Ante una gran diversidad cultural y gastronómica, pareciera imposible medir y, aún más complicado, conocer qué tan saludable es nuestra dieta en realidad.
El Centro de Investigación e Impacto “Evidencia y Acción para la Equidad en Salud” (EVIS) de la Escuela de Gobierno y Transformación Pública asumió este reto y se encuentra desarrollando una metodología innovadora en México para analizar mejor los patrones de dieta. Analizar de manera adecuada los hábitos alimenticios de los mexicanos permitirá la implementación de intervenciones enfocadas a la dieta que impulsen la prevención de enfermedades y sus complicaciones.
¿Qué comemos en México?
Una práctica común en la epidemiología nutricional es analizar nutrientes, alimentos o grupos de alimentos por separado. Mientras tanto, en la realidad los nutrientes y alimentos se consumen de forma combinada (Schulz, Oluwagbemigun y Nöthlings, 2021).
De acuerdo con Hodge y Basset (2016), diversos autores han buscado alternativas para investigar las asociaciones entre dieta y enfermedad debido a las correlaciones y sinergias entre alimentos y nutrientes que se ingieren de forma combinada (Bodnar, Kirkpatrick y Naimi, 2022, profundizan la evidencia que se ha encontrado sobre estas sinergias). Además, puede que un patrón dietético tenga una asociación más fuerte con el resultado que cualquiera de los elementos individuales que lo conforman.
Por ejemplo, en el estudio de Green, Milner, Joy, Agrawal y Dangour (2016) sobre las dietas en India, encontraron que diferentes combinaciones de alimentos se asocian en distintas magnitudes con el tamaño corporal, niveles de colesterol, hipertensión y riesgo de diabetes. Además, las dietas presentan variaciones entre las regiones del país.
El análisis de los patrones de dieta persiste como un reto importante en el campo de la epidemiología nutricional (Schulz, et al., 2021). Se han evaluado distintas aproximaciones al análisis de dieta usando métodos multivariantes, como Análisis de Componentes Principales, Análisis Factorial, Análisis de Clases Latentes y Análisis de Conglomerados, con resultados inconclusos sobre cuál es mejor. En todos estos casos, se suele usar grupos alimenticios o incluso densidades nutricionales, lo que limita el detalle de las dietas y combinaciones de alimentos (Hodge y Basset, 2016; Green, et al., 2016; Schulz, et al., 2021).
La estrategia que está desarrollando EVIS para el análisis de las dietas en México requiere datos poblacionales que capturen lo que consumen los mexicanos en un momento específico. Después, se necesita que esta información se encuentre desagregada, con el mayor detalle posible del alimento, incluyendo si se cocinó en casa o fue comprado. Por último, requiere un método robusto y escalable de análisis que clasifique la dieta de forma parsimoniosa sin sacrificar detalle.
Una herramienta valiosa: Recordatorio de 24 horas
La Encuesta Nacional de Salud y Nutrición (ENSANUT) fue diseñada para simular lo que pasaría si tuviéramos la capacidad de enviar en un solo evento a todo el país a una revisión con el médico. La información obtenida sería crucial para “saber por qué los mexicanos enfermamos y de qué enfermamos, conoceríamos más sobre cómo hacer frente a los factores que afectan nuestra salud y seguramente tomaríamos mejores decisiones de política pública en esta materia” (INSP, 2023, p. S1).
La ENSANUT Continua 2022 incorpora en los cuestionarios el recordatorio de los alimentos que se consumieron las últimas 24 horas (Romero-Martínez, et al., 2022, p. S5). El Recordatorio de 24 horas captura detalladamente lo que comieron personas reales ayer, con información desagregada y contextual. Esta sección del cuestionario se conforma de preguntas abiertas que responden “¿Me puede decir todo lo que comió y bebió el día de ayer, desde que se levantó hasta antes de dormir?” , dirigida a los miembros del hogar de todas las edades.
Mediante entrevistas estructuradas, el Recordatorio 24 horas recopila información sobre:
Alimentos consumidos: nombre declarado del alimento, cantidad y preparación.
Horarios y lugares de consumo: por ejemplo, si fue consumido en su casa o en la calle; si se trataba de desayuno, comida o cena; y la hora exacta en que fue consumido.
Uso y frecuencia de suplementos nutricionales.
Descripción detallada de los alimentos, incluyendo métodos de cocción y si se trata de un alimento de consumo habitual o esporádico.
Además, se realizan revisitas para obtener datos adicionales que permitan estimar con mayor precisión la ingesta habitual. De esta manera, en la edición 2022 de ENSANUT Continua, se cuenta con más de 36 mil registros de respuestas abiertas que no son procesables con métodos tradicionales, pero guardan una gran riqueza de información.
¿Cómo analizar más de 36 mil respuestas abiertas?
El uso de respuestas abiertas en la ENSANUT Continua 2022 representa una oportunidad metodológica de alto potencial, pero a su vez un gran reto. Las respuestas abiertas carecen de códigos que permiten el procesamiento de los datos. Por ejemplo, es más fácil hacer cálculos con los códigos de entidad, municipio, localidad y manzana del catálogo de INEGI que al preguntar a los encuestados su dirección y que el encuestador la ingrese “a texto libre”.
Entonces, las respuestas abiertas del Recordatorio de 24 horas no solo capturan la enorme diversidad de alimentos y platillos que conforman la dieta de las y los mexicanos, sino que también son propensas al error humano. Por este motivo, es un reto para el análisis la presencia de errores ortográficos, los nombres comerciales, combinaciones de alimentos, diminutivos, omisión de letras, etcétera.
Concretamente, el problema analítico es: ¿cómo traducir lo que alguien dice que comió en datos estructurados? ¿Es posible estandarizar palabras como "taquitos", "agua de limón" o "quesadilla de pollo"? Procesar el lenguaje en este contexto va más allá de limpiar texto: se necesita conservar el significado de cada frase. Las llamadas stopwords (como “con”, “sin”, “y”) que suelen eliminarse durante el proceso inicial de “normalización” en análisis tradicionales de lenguaje natural, brindan información esencial en el contexto de dieta2. Por ejemplo, “ensalada con aderezo” no es lo mismo que “ensalada sin aderezo”, pues cambia toda la interpretación de la dieta.
Para analizar información del Recordatorio de 24 horas, en EVIS se optó por los métodos de procesamiento de lenguaje natural (NLP)3. Si bien estas técnicas cobraron relevancia en el análisis de opiniones en redes sociales como el sentiment analysis, analizar encuestas alimentarias es un reto muy distinto y, en muchos aspectos, más complejo. Se trata de crear un algoritmo de representación para convertir esas respuestas abiertas en datos estructurados que permitan analizar patrones de consumo.
La combinación entre NLP y Machine Learning permite reconocer alimentos a partir de frases con errores o incluso con regionalismos y marcas comerciales. También permite identificar patrones, construir clasificaciones a partir de la similitud de platillos y entender combinaciones comunes.
El objetivo que persigue EVIS no es simplemente limpiar las respuestas, sino transformar lenguaje libre y desordenado en representaciones computacionales que nos permitan identificar patrones, asociarlos con condiciones de salud y aportar evidencia para orientar la política alimentaria. Por ejemplo, una hipótesis es que las y los mexicanos cada vez desayunamos más comida comprada en la calle, y especialmente en zonas urbanas, en población en edad trabajadora. Los métodos tradicionales que clasifican a los alimentos (frutas, verduras, cereales, lácteos, azúcares añadidos) no son capaces de generar el detalle necesario para entender patrones de consumo que dependen del contexto, como la compra de alimentos preparados, el lugar de consumo o las combinaciones típicas que caracterizan tiempos específicos de comida. Para capturar esa complejidad, es necesario procesar el lenguaje tal como lo usan las personas, reconociendo nombres comerciales, platillos típicos, preparaciones mixtas y variaciones ortográficas, lo cual requiere técnicas de procesamiento de lenguaje natural aplicadas a gran escala.
Conclusiones
En EVIS se realizan diversos proyectos de investigación de índole cuantitativa y cualitativa sobre alimentación y sistemas alimentarios. La metodología que actualmente desarrolla EVIS permitirá un análisis nunca antes visto en el país sobre dieta, que no solo contribuirá a entender su relación con las enfermedades más prevalentes, sino que establecerá un precedente metodológico aplicable a diversas fuentes de información, especialmente aquellas de tipo no estructurado o de lenguaje libre.
Esta iniciativa se sitúa en la intersección entre ciencia de datos y política pública en salud, al traducir grandes volúmenes de información compleja en insumos concretos para la toma de decisiones. El uso de técnicas como el procesamiento de lenguaje natural (PLN) permite generar conocimiento procesable a partir de cómo las personas describen su alimentación en su propio lenguaje, abriendo nuevas posibilidades para el monitoreo, la evaluación y el diseño de políticas más sensibles al contexto.
Con esta metodología, México podría estar a la vanguardia del análisis dietético en América Latina, reconociendo la riqueza y complejidad de lo que comemos para transformar la salud pública desde la evidencia.
Nota: Daira Vanessa Puga Navarrete es alumna de la Maestría en Economía de la EGobiernoyTP, y colabora como becaria en EVIS; actualmente participa en el desarrollo de la investigación descrita en este blog.
1. La obesidad se define como un índice de masa corporal mayor a 30 kg/m2, y 25 kg/m2 para ser clasificado como con sobrepeso.
2. Véase Zhang, Y., Jin, R., & Zhou, Z. H. (2010). "Understanding bag-of-words model: a statistical framework." International Journal of Machine Learning and Cybernetics, 1(1–4), 43–52.
3. Para mayor información sobre los métodos de NLP, véase Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed., draft).
Bodnar, L. M., Kirkpatrick, S. I., & Naimi, A. I. (2022). Machine learning can improve the development of evidence-based dietary guidelines. Public Health Nutrition, 25(9), 2566–2569. https://doi.org/10.1017/S1368980022001392
Green, R., Milner, J., Joy, E. J. M., Agrawal, S., & Dangour, A. D. (2016). Dietary patterns in India: A systematic review. British Journal of Nutrition, 116(1), 142–148. https://doi.org/10.1017/S0007114516001598
Hodge, A., & Bassett, J. (2016). What can we learn from dietary pattern analysis? Public Health Nutrition, 19(2), 191–194. https://doi.org/10.1017/S1368980015003730
Instituto Nacional de Salud Pública. (2023). Editorial: La Encuesta Nacional de Salud y Nutrición 2022. Salud Pública de México, 65(Supl. 1), S1–S2. https://ensanut.insp.mx/encuestas/ensanutcontinua2022/doctos/analiticos/01-Editorial-ENSANUT2022-15087-72677-2-10-20230619.pdf
Romero-Martínez, M., Barrientos-Gutiérrez, T., Cuevas-Nasu, L., Bautista-Arredondo, S., Colchero, M. A., Gaona-Pineda, E. B., Martínez-Barnetche, J., Alpuche-Aranda, C., Gómez-Acosta, L. M., Mendoza-Alvarado, L. R., Rivera-Dommarco, J., Lazcano-Ponce, E., & Shamah-Levy, T. (2022). Metodología de la Encuesta Nacional de Salud y Nutrición 2022 y planeación y diseño de la Ensanut Continua 2020-2024. Salud Pública de México, 64(5), 522–529. https://doi.org/10.21149/14186
Schulz, C.-A., Oluwagbemigun, K., & Nöthlings, U. (2021). Advances in dietary pattern analysis in nutritional epidemiology. European Journal of Nutrition, 60(8), 4115–4130. https://doi.org/10.1007/s00394-021-02545-9
Shamah-Levy, T., Lazcano-Ponce, E. C., Cuevas-Nasu, L., Romero-Martínez, M., Gaona-Pineda, E. B., Gómez-Acosta, L. M., Mendoza-Alvarado, L. R., & Méndez-Gómez-Humarán, I. (2024). Encuesta Nacional de Salud y Nutrición Continua 2023: Resultados Nacionales. Instituto Nacional de Salud Pública. https://ensanut.insp.mx/encuestas/ensanutcontinua2023/doctos/informes/ensanut_23_112024.pdf