Blog

El arte y la ciencia de visualizar datos

30 de Agosto de 2023
Image
El arte y la ciencia de visualizar datos
Dommy imagen usuario generico
Stephany Cisneros Villarán

Estudiante de la Maestría en Administración Pública y Política Pública

*Este blog ha sido elaborado con base en los conocimientos obtenidos en el curso intensivo de visualización de datos, impartido en la EgobiernoyTP del 19 al 2 de junio de 2023, por el Dr. José Ramírez-Márquez, profesor del Stevens Institute of Technology.

 

En una sociedad donde el flujo de información está en constante crecimiento y se producen grandes cantidades de datos con rapidez, la visualización es una herramienta para entender y dar sentido al mundo. Actualmente, este es un recurso crucial para explorar, analizar y comunicar datos, haciendo posible llegar a audiencias amplias.

 

Con el paso del tiempo, el desarrollo tecnológico ha facilitado y ampliado las posibilidades para generar visualizaciones. No obstante, la efectividad de éstas depende de su capacidad para mostrar hallazgos y propiciar la comprensión de los datos, atendiendo fines específicos, en contextos dados. Edward Tufte, pionero en el estudio de la visualización de datos, asegura que “la excelencia en gráficos estadísticos se compone de ideas complejas comunicadas con claridad, precisión y eficiencia” (Tufte, 2001). Lo anterior implica una estrategia que va más allá de simplemente elaborar imágenes o gráficos.

 

Entendemos la visualización de datos como la abstracción de información para ser representada gráficamente, presentando sus atributos a través de formas que facilitan su entendimiento; su objetivo es "ayudar a nuestra comprensión de los datos aprovechando el sistema visual humano altamente sintonizado para ver patrones, detectar tendencias e identificar valores atípicos" (Heer, Bostock, & Ogievetsky, 2010). De esta forma, las representaciones visuales hacen uso de técnicas cognitivas y de percepción que además pueden mejorar la retención e involucrar a un público diverso en la exploración y el análisis de datos.

 

Para que esto suceda, es relevante tomar en cuenta tanto el contenido como la estética. Claus O. Wilke, (2019) destaca que la visualización de datos es tanto un arte como una ciencia. Un buen diseño debe ser estéticamente agradable sin comprometer la precisión de la representación de los datos. Si una figura contiene colores discordantes, elementos visuales desequilibrados u otras características que distraen, entonces el espectador encontrará más difícil inspeccionarla e interpretarla correctamente.

 

Además de representar información, las visualizaciones también pueden ser una fuente de inspiración y descubrimiento. Como señala Ben Schneiderman (1996), lo divertido de visualizar información es que te da respuestas a preguntas que no sabías que tenías.

 

Así, la variedad de usos de las visualizaciones incluyen la exploración y evaluación de la calidad de los datos; la respuesta a preguntas de interés y la generación de nuevas preguntas; la creación y comunicación de historias de datos para identificar oportunidades y desafíos, tomar decisiones o para informar a una audiencia. Asimismo, pueden ser presentadas de diversas maneras y en formatos diferentes.

 

A fin de ilustrar lo anterior, a continuación se muestran ejemplos de visualizaciones de diferente naturaleza obtenidos en internet.

En la Figura I se observa una imagen extraída de la página web "Graphic detail" de The Economist, en donde publican la “gráfica del día”, con análisis sobre temas actuales. Esta visualización ejemplifica el uso cotidiano que el periodismo hace de este recurso en sus plataformas.

Image
Fuente: The Economist. (2023). Graphic detail [Captura de pantalla]. The Economist.
Figura l. Fuente: The Economist. (2023). Graphic detail [Captura de pantalla]. The Economist.

 

La Figura II pertenece a un artículo de Reuters titulado "The grass courts are now in session", el cual proporciona un análisis detallado de las canchas de césped en Wimbledon, incluyendo cómo afectan el estilo de juego, en comparación con otro tipo de superficies. En la construcción de las gráficas, el autor usa elementos visuales relacionados con el tema, creando mayor atracción. 

Image
Typical turf heights
Figura ll. Levine, A. J., & Hartman, T. (2023). Typical turf heights [Gráfica] y Relative court speeds [Gráfica]. En The grass courts are now in session. Reuters. https://www.reuters.com/graphics/TENNIS-WIMBLEDON/GRAPHIC/lbvggkzjmvq/

 

 

La Figura III es un gráfico que muestra la disparidad entre las puntuaciones de los críticos y de la audiencia en Rotten Tomatoes para varias películas populares, incluyendo "Star Wars: The Last Jedi". La publicación original es una visualización interactiva, que proporciona mayor información al colocar el cursor sobre las burbujas.

Image
La disparidad entre las puntuaciones de los críticos y de la audiencia en Rotten Tomatoes
Fuente: McCandless, D. (2018). Star Wars Last Jedi: One of the Biggest Rotten Tomatoes Audience vs Critics Score Splits Ever. Information is Beautiful. https://informationisbeautiful.net/visualizations/star-wars-last-jedi-one-of-the-biggest-rotten-tomatoes-audience-vs-critics-score-splits-ever/

 

La figura IV presenta la gráfica “More Dual Income, No Kids”, la cual hace una comparación entre los ingresos de las familias, según la cantidad de personas con ingresos, en relación con la cantidad de hijos que tienen. Esta visualización hace uso de variables múltiples, es decir, muestra un conjunto de gráficas en un solo lienzo, facilitando la comparación entre diversas variables de interés.

Image
More dual income no kids
Figura IV. Fuente: Nathan Yau, (2023). More Dual Income, No Kids [Gráfica]. En FlowingData.

 

En la Figura V, la gráfica en la página web "Best in Show: The Ultimate Data Dog" se centra en determinar cuál es la mejor raza de perro. Para ello, examina datos sobre inteligencia, longevidad, enfermedades genéticas y otros marcadores con base en los cuales crea una "puntuación de datos". Luego, ésta se compara con la popularidad pública de varias razas, según el American Kennel Club. La orientación, el tamaño, el color de los perros, así como su posición en el cuadrante, proporcionan más información.

Image
Best in Show: The Ultimate Data Dog
Figura V. David McCandless. (2023). "Best in Show: The Ultimate Data Dog". En Information is Beautiful.

 

La figura VI muestra la gráfica "Life Satisfaction and Age", de la página de internet FlowingData. Ésta presenta la relación entre la satisfacción con la vida y la edad. En el estudio, se pidió a las personas que calificaran su satisfacción en una escala de 0 a 10, donde 10 es la mejor vida posible y 0 es la peor vida posible. La gráfica muestra la puntuación media por edad.

Image
Life satisfaction and age
Figura VI. Fuente: Nathan Yau. (2022). Life Satisfaction and Age [Gráfica]. En FlowingData.

 

El análisis de texto también se puede visualizar. La figura VII contiene un par de nubes de palabras publicadas en el periódico El Economista, en las que es posible observar cuáles fueron los conceptos más repetidos durante el discurso de investidura de Barack Obama, en comparación con los usados en su discurso de despedida. 

Image
Las palabras más pronunciadas por el presidente estadounidense Barack Obama
Figura VII. Fuente: El Economista. (2017). Las palabras más pronunciadas por el presidente estadounidense Barack Obama en sus discursos de investidura y despedida [Gráfica]. En El Economista.

Las figuras mostradas ejemplifican la diversidad de características de las visualizaciones, incluyendo la amplitud de temas, formatos y objetivos. Al observar cada una de éstas, es posible obtener una lectura específica sobre cierto hecho, y retener algún aprendizaje, derivado de la gráfica presentada. Por esto, es de suma importancia asumir una posición ética y responsable al trabajar con datos y al comunicarlos, pues estarán impactando a más personas.

 

Los siguientes apartados se centran en el proceso para contar historias con datos a través de visualizaciones. En primer término, se hace una recopilación bibliográfica sobre aspectos técnicos y teóricos; posteriormente se realiza un ejercicio práctico, en el que se desarrolla el proceso para crear un tablero conformado por visualizaciones que buscan seguir una narrativa.

PRIMERO LOS DATOS, LUEGO LAS HISTORIAS

El primer insumo de las visualizaciones son los datos y éstos son más que números. Los aspectos estéticos caen en uno de dos grupos: aquellos que pueden representar datos continuos y aquellos que no pueden, sin embargo la diversidad de valores va más allá de numéricos continuos y discretos, pues los datos pueden presentarse en forma de categorías, fechas o tiempos, y como texto (Wilke, 2019). 

 

Hadley Wickham (2017), estadístico y desarrollador de software, explica que el proceso para analizar datos comienza con el acceso a éstos, e inmediatamente después se requiere entenderlos. Para esto, describe un proceso cíclico conformado por tres elementos: transformación, visualización, modelado. Posteriormente, los resultados se comunican para contestar la pregunta que dio origen al análisis. Usualmente, la retroalimentación genera nuevas preguntas y nuevos análisis.

Image
Engineering Data Analysis
Fuente: Wickham, H. (2011). Engineering Data Analysis (with R and ggplot2) [Captura de pantalla]. Google Tech Talk.

 

Las visualizaciones, de este modo, pueden ser útiles para entender los datos, pero también para comunicar los hallazgos. Tanto la limpieza como la transformación son etapas fundamentales en la exploración de datos, que pueden influir significativamente en la calidad y eficacia de los análisis y visualizaciones resultantes, en un constante proceso de retroalimentación. Hadley Wickham (2014) ha proporcionado una valiosa contribución a este campo a través de su concepto de "datos ordenados".

 

Wickham define los datos ordenados como aquellos en los que cada variable forma una columna, cada observación forma una fila y cada tipo de unidad de observación forma una tabla. La limpieza de datos implica identificar y corregir errores, inconsistencias y omisiones en los datos. El mismo autor argumenta que los datos ordenados son más fáciles de limpiar porque su estructura coherente facilita la identificación de problemas.

 

La transformación de datos, por otro lado, implica cambiar la estructura o los valores de los datos para facilitar su análisis y, consecuentemente, su visualización. Esto puede incluir la creación de nuevas variables a partir de las ya existentes, la reorganización de los datos o la conversión de los datos a diferentes formatos. Los datos ordenados son más fáciles de transformar pues permiten manipulaciones consistentes. 

 

En resumen, la visualización juega un papel importante en el análisis exploratorio de datos, pues a través de éstas se pueden detectar inconsistencias en los datos y anomalías que deben corregirse, pero también nuevos patrones, tendencias y perspectivas distintas. Asimismo, los hallazgos pueden comunicarse a través de elementos visuales que faciliten su entendimiento, dependiendo del objetivo específico.

 

La pregunta obvia es, ¿qué tipo de visualización debería usar? La respuesta tiene diversos enfoques. En su artículo “Visualizaciones que realmente funcionan”, Scott Berinato (2016) explica que quienes quieren mejorar en la creación de gráficos suelen empezar aprendiendo las reglas: qué tipo de visualización debo usar dependiendo de los datos numéricos o categóricos,  qué dice la teoría del color sobre las combinaciones, qué escalas deben usarse; sin embargo, asegura que  aunque la gramática visual es importante y útil, no garantiza una estrategia para la ejecución. 

 

En cambio, este autor propone comenzar con dos preguntas: ¿la información es conceptual o impulsada por datos? y ¿estoy explorando algo o declarando algo? El primer cuestionamiento define el enfoque: ideas o estadística; el segundo, los objetivos. Un ejemplo de una visualización con información conceptual está dada en la Ilustración II, en la gráfica “Relative court speeds”, en donde se comunica qué tipo de superficie permite un juego más rápido; mientras que en la gráfica “Life Satisfaction and Age” de la Figura VI relaciona datos, mostrando promedios de edad en relación con una evaluación numérica sobre satisfacción. Por otro lado, en la Figura IV realiza una exploración para descubrir qué composición familiar presenta mejores ingresos en cierto tiempo, y la Figura I es un ejemplo de declaración, usada para difundir noticias. 

Con base en esto, Berinato crea una tipología compuesta por cuatro opciones de comunicación visual: ilustración de ideas, generación de ideas, descubrimiento visual y visualización de datos cotidianos.

La ilustración de ideas se refiere a la representación visual de conceptos complejos de una manera que sea fácil de entender, usando metáforas y convenciones de diseño simples para transmitir ideas de manera efectiva, por ejemplo, los organigramas. La generación de ideas, por otro lado, es un proceso colaborativo que se utiliza para fomentar el pensamiento creativo y la innovación.

De acuerdo con Berinato, el descubrimiento visual se usa para explorar grandes conjuntos de datos y buscar patrones, tendencias y anomalías. Este tipo de visualización es especialmente útil en el análisis de datos y puede ser utilizado para responder a preguntas como "¿es cierto lo que sospecho?" o "¿cuáles son otras formas de representar esta idea?"

Por último, la visualización de datos cotidianos se refiere a los gráficos y diagramas básicos que se utilizan a menudo en presentaciones. Estos gráficos suelen ser sencillos y tienen como objetivo afirmar y establecer el contexto.

Cada uno de estos tipos de comunicación visual requiere un conjunto de habilidades y está orientado a objetivos específicos y a una audiencia definida. En este contexto, es fundamental reconocer qué información es importante para ser visualizada en función del objetivo y del público, y estar conscientes de que habrá información secundaria que no podrá incluirse, a fin de no saturar o confundir. 

En el mismo sentido, Wilke (2019) propone pensar en el objetivo de la visualización para saber qué gráfico usar; considera más adecuado un enfoque que da prioridad al mensaje que se desea transmitir en lugar del tipo de datos que se visualizan. Asimismo, argumenta que los textos estadísticos tradicionales, que generalmente organizan el análisis y la visualización de datos con base en el número y tipo de variables no son de utilidad para la mayoría de las personas que tienden a pensar en términos de  un mensaje, como el tamaño de algo, su composición o su relación con otra cosa. 

Así, a fin de llegar a un público más amplio, Wilke realiza una clasificación de objetivos y, con base en ellos, explica qué gráfica usar. La siguiente tabla presenta un resumen de su directorio de gráficas.  

Tabla I. Uso de gráficas según objeto

Objetivo

Visualizaciones sugeridas

Mostrar cantidades

Visualizaciones sugeridas - Barras, Puntos, Agrupaciones, Mapa de calor

Barras, Puntos, Agrupaciones, Mapa de calor

Mostrar distribuciones

Visualizaciones sugeridas - Histogramas, Gráficos de densidad, Boxplots, Violin plots, Strip charts, Sina plots, Histogramas apilados, Gráficos de densidad superpuestos, Gráficos de cresta

Histogramas, Gráficos de densidad, Boxplots, Violin plots, Strip charts, Sina plots, Histogramas apilados, Gráficos de densidad superpuestos, Gráficos de cresta

Mostrar proporciones     

Visualizaciones sugeridas - Gráficos de pastel, barras lado a lado, barras apiladas, barras agrupadas, densidades apiladas, gráficos de mosaico, gráfico de árbol (treemaps), conjuntos paralelos

Gráficos de pastel, barras lado a lado, barras apiladas, barras agrupadas, densidades apiladas, gráficos de mosaico, gráfico de árbol (treemaps), conjuntos paralelos

Mostrar relaciones x-y     

Visualizaciones sugeridas - Gráficos de dispersión, gráficos de burbujas, gráficos de pendiente, líneas de contorno, bines 2D, bines hexagonales, correlogramas, gráficos de líneas

Gráficos de dispersión, gráficos de burbujas, gráficos de pendiente, líneas de contorno, bines 2D, bines hexagonales, correlogramas, gráficos de líneas

Mostrar datos geoespaciales

Visualizaciones sugeridas - Mapas, mapa coroplético, cartogramas

Mapas, mapa coroplético, cartogramas

Mostrar incertidumbre      

Visualizaciones sugeridas - Barras de error, barras de error graduadas, distribuciones de confianza o posteriores, franjas de confianza, ojos y medios ojos, gráficos de puntos de cuantil, bandas de confianza

Barras de error, barras de error graduadas, distribuciones de confianza o posteriores, franjas de confianza, ojos y medios ojos, gráficos de puntos de cuantil, bandas de confianza

Aunque ambos autores mencionados desestiman elegir una visualización en función del tipo de variables, es de utilidad mostrar qué posibilidades de representaciones permiten los datos, a fin de que el lector decida qué le funciona mejor. A continuación se enlistan algunos usos comunes; una revisión exhaustiva puede ser consultada aquí. 

Tabla II. Uso de gráficas según tipo de datos

Tipo de Variable

Tipo de Gráfica

Unidimensional continua

Tipo de Gráfica - Histograma, gráfico de densidad, gráfico de caja (boxplot), gráfico de violín

Histograma, gráfico de densidad, gráfico de caja (boxplot), gráfico de violín

Multidimensional continua

Tipo de Gráfica - Gráfico de dispersión, gráfico de pares, gráfico de matriz de correlación, gráfico de superficie 3D

Gráfico de dispersión, gráfico de pares, gráfico de matriz de correlación, gráfico de superficie 3D

Unidimensional categórica

Tipo de Gráfica - Gráfico de barras, gráfico de pastel

Gráfico de barras, gráfico de pastel

Multidimensional categórica

Tipo de Gráfica - Gráfico de barras apiladas, gráfico de mosaico, gráfico de calor (heatmap)

Gráfico de barras apiladas, gráfico de mosaico, gráfico de calor (heatmap)

Dos continuas

Tipo de Gráfica - Gráfico de dispersión, gráfico de línea, gráfico de contorno

Gráfico de dispersión, gráfico de línea, gráfico de contorno

Continua más categórica

Tipo de Gráfica - Gráfico de barras, gráfico de caja (boxplot), gráfico de violín

Gráfico de barras, gráfico de caja (boxplot), gráfico de violín

Texto

Tipo de Gráfica - Nube de palabras, gráfico de barras (para frecuencia de palabras), gráfico de árbol (para estructura de texto)

Nube de palabras, gráfico de barras (para frecuencia de palabras), gráfico de árbol (para estructura de texto)

Geoespacial

Tipo de Gráfica - Mapa de calor geoespacial, mapa de contorno, mapa de burbujas, mapa de coropletas

Mapa de calor geoespacial, mapa de contorno, mapa de burbujas, mapa de coropletas

 

Al momento de elegir la visualización, se debe tener en cuenta que los aspectos estéticos también proporcionan información. Wilke (2019) refiere la importancia de la estética en la creación de visualizaciones, las cuales describen cada aspecto de un elemento gráfico. Por ejemplo, la posición, que describe su ubicación en el gráfico. En representaciones 2D estándar, las posiciones se ordenan mediante un valor x y un valor y. Además, todos los elementos gráficos tienen una forma, un tamaño y un color. Si se utilizan líneas para visualizar datos, éstas pueden tener diferentes anchos o patrones de guiones y puntos.

 

La posición, tamaño, ancho de línea y color pueden representar tanto datos continuos como discretos, mientras que la forma y tipo de línea se usa para datos discretos. Wilke explica tres usos fundamentales del color en las visualizaciones de datos: (i) distinguir grupos de datos entre sí; (ii) representar valores de datos; y (iii) resaltar aspectos específicos de los datos.

 

El color debe usarse con cuidado, a fin de no causar confusiones en la interpretación de datos; se recomienda revisar tanto teorías del color y la percepción, así como ser sensibles ante connotaciones culturales que podrían tener repercusiones. Asimismo, la accesibilidad es importante, por lo que es relevante considerar a las personas con deficiencias de visión del color al momento de elegir las combinaciones. El proyecto ColorBrewer proporciona una guía útil para elegir y evaluar el uso de color en las visualizaciones. 

 

Otro factor importante es que los datos que visualizamos se mapean en estéticas a través de escalas. Una escala define un mapeo único entre los datos y las estéticas. Este mapeo debe ser uno a uno, es decir, para cada valor de datos específico debe existir exactamente un valor estético y viceversa. Si una escala no es uno a uno, la visualización de datos se vuelve ambigua.

 

Y ahora sí, las historias
 

La comunicación efectiva de los resultados del análisis de datos es un componente esencial, tanto para entender un problema, como para tener elementos que permitan la toma de decisiones. Comunicar los resultados a través de visualizaciones adquiere mayor utilidad a medida que la variedad y complejidad de los datos aumentan, pues hay técnicas que permiten mostrar los hallazgos de manera que la audiencia los entienda sin tener conocimientos profundos en el tema. 

 

En su libro "Storytelling with Data: A Data Visualization Guide for Business Professionals", Cole Nussbaumer Knaflic (2015) se centra en cómo utilizar la visualización de datos para contar historias efectivas. Aborda varios aspectos clave de la visualización de datos, incluyendo:

 

  1. Entender el contexto: antes de crear una visualización, es importante comprender el contexto en el que se utilizará. Esto incluye conocer a la audiencia, el mensaje que se quiere transmitir y cómo se utilizará la visualización.

  2. Elegir las visualizaciones adecuadas: se debe considerar el tipo de visualización que mejor se adapte a los datos y al objetivo del  mensaje.

  3. Eliminar el ruido: centrarse en lo que es importante; presentar los datos de manera clara y sin distracciones. 

  4. Contar una historia: encontrar una narrativa para presentar las visualizaciones.

  5. Refinar y perfeccionar: revisar y refinar la visualización para asegurarse de que transmite el mensaje deseado de la manera más efectiva posible.

Por su parte, para contar una historia basada en datos, Nathan Yau (2011) recomienda un proceso que incluye obtener tus datos, hacer una pregunta, explorar tendencias y patrones a lo largo del tiempo, el espacio y las categorías, y diseñar la visual.

De acuerdo con lo revisado, crear visualizaciones efectivas y atractivas que sean apropiadas para los datos es un desafío. Requiere una serie de decisiones, como determinar qué preguntas hacer, identificar los datos apropiados y seleccionar codificaciones visuales efectivas para mapear los valores de los datos a características gráficas como la posición, el tamaño, la forma y el color.

En este sentido, Ben Shneiderman (1996) es reconocido por su mantra para realizar representaciones visuales, el cual se resume en tres pasos: "Primero una visión general, luego zoom y filtro, y finalmente detalles a pedido". Estos pasos se explican de la siguiente forma:

 

  1. Visión general: implica proporcionar a los usuarios una visión completa de los datos. Esto les permite obtener una comprensión inicial de los datos y detectar patrones y tendencias generales.

  2. Zoom y filtro: una vez que los usuarios tienen una visión general de los datos, pueden querer explorar áreas específicas en más detalle. El zoom y el filtro permiten a los usuarios centrarse en partes específicas de los datos que les interesan.

  3. Detalles a pedido: después de identificar áreas de interés, los usuarios pueden querer obtener más detalles sobre los datos específicos. Los detalles a pedido proporcionan esta información adicional regularmente de manera interactiva. Esta técnica es útil para relacionar la información detallada con el resto del conjunto de datos o para resolver rápidamente tareas específicas, como identificar un elemento de datos específico entre muchos, o relacionar atributos de dos o más puntos de datos.

Este mantra resume muchas pautas de diseño visual y proporciona un marco para el diseño de aplicaciones de visualización de información. Al seguirlo, los diseñadores pueden crear visualizaciones que permitan a los usuarios explorar y entender los datos de manera efectiva.

 

Así, construir historias a partir de datos es más que una sola representación gráfica. Al combinar técnicas de diseño visual con un entendimiento profundo de los datos, podemos crear visualizaciones que no sólo informan, sino que también inspiran y motivan la acción. En última instancia, la visualización de datos nos permite contar historias con nuestros datos, haciendo que la información sea accesible y significativa para una amplia variedad de audiencias.

El reto de aplicar lo aprendido
 

Con base en lo expuesto, en este apartado se construirá una historia con visualizaciones a partir de un enfoque de datos, sobre las solicitudes de atención ciudadana recibidas en la Alcaldía Benito Juárez. Para realizarlo, se proponen los siguientes pasos:

 

  1. Entender el contexto

  2. Definir el objetivo:  ilustración de ideas, generación de ideas, descubrimiento visual o visualización cotidiana

  3. Obtener lo datos

  4. Entender los datos

    1. Limpiar y transformar los datos 

    2. Análisis exploratorio

  5. Elegir qué pregunta responderá la historia

  6. Elegir una visualización que ofrezca un panorama general

  7. Elegir una visualización que filtre una parte de los datos.

  8. Elegir una visualización que muestre detalles de los datos.

  9. Presentar las visualizaciones.

  10.  

Primero, el contexto. A fin de atender las solicitudes de atención ciudadana, la Ciudad de México cuenta con el sistema 0311 Locatel, el cual concentra todas las solicitudes realizadas al gobierno de la Ciudad de México a través de la marcación corta * 0311 o el número 5556581111, el chat habilitado en los principales sitios web del Gobierno de la Ciudad de México, la App CDMX, redes sociales de Locatel, y en las distintas áreas de atención ciudadana en dependencias y alcaldías.

 

El conjunto de datos 0311 Locatel, que muestra información de solicitudes realizadas a través de dicho sistema, puede ser consultado y descargado en la página de datos abiertos de la Ciudad de México. Cuenta con información desde el año 2019, con registros correspondientes a todas las alcaldías.

 

Con base en la disponibilidad de estos datos, el objetivo (de acuerdo con la tipología presentada por Scott) es un descubrimiento visual, teniendo como insumo los registros de atención ciudadana en la Alcaldía Benito Juárez, extraídos del conjunto de datos 0311 Locatel. La base de datos a trabajar se filtró previamente para que las observaciones correspondan únicamente a dicha alcaldía. 

 

Para entender los datos, se realizó un análisis exploratorio, comenzando por comprender los contenidos y estructura. La base tiene 77,457 filas y 15 columnas, con la siguiente información: 

 

  1. ID folio: Una identificación única para cada registro. 

  2. FECHA_SOLICITUD: La fecha en que se realizó la solicitud.

  3. HORA_SOLICTUD: La hora en que se realizó la solicitud.

  4. TIPO_ENTRADA: El medio a través del cual se realizó la solicitud (por ejemplo, OPERADOR TELEFÓNICO LOCATEL, PORTAL CIUDADANO SUAC).

  5. TEMA_SOLICITUD: El tema de la solicitud (por ejemplo, MEDIO AMBIENTE).

  6. SEXO: El género del solicitante (MASCULINO, FEMENINO).

  7. EDAD: La edad del solicitante.

  8. ESTATUS: El estado de la solicitud (por ejemplo, ATENDIDO, TURNADO).

  9. FECHA_CONCLUIDO: La fecha en que se completó la solicitud.

  10. ALCALDIA: La alcaldía donde se realizó la solicitud.

  11. COLONIA_DATOS: La unidad territorial que refiere la solicitud

  12. COLONIA_REGISTRO: Colonia donde se registró la solicitud

  13. CP: El código postal donde se realizó la solicitud.

  14. LATITUD: La latitud de la ubicación de la solicitud.

  15. LONGITUD: La longitud de la ubicación de la solicitud.

     

La base de datos se puede caracterizar como tidy, es decir,  cada variable forma una columna, cada observación forma una fila y cada tipo de unidad de observación forma una tabla. La limpieza de datos implicó identificar valores nulos y decidir qué hacer con ellos, así como inconsistencias y errores, para lo cual fue útil el análisis exploratorio. Previamente, se transformaron los tipos de datos, dependiendo de su naturaleza como número entero o flotante, categórico y temporal. Asimismo, se eliminaron las variables ALCALDÍA, CP y COLONIA_REGISTRO; la primera ya que todos los valores pertenecen a Benito Juárez, la segunda es innecesaria ya que se cuenta con datos geográficos, y la tercera porque ya se tiene una variable que identifica las unidades territoriales (COLONIA_DATOS), considerando que  COLONIA_REGISTRO  tenía 46.25% de valores nulos. 

 

Entre los principales hallazgos del análisis exploratorio se encuentran los siguientes: 

  • Proporción de valores nulos en las variables: 

    • EDAD: 52.13%

    • COLONIA_REGISTRO: 46.25%

    • SEXO: 26.65%

    • FECHA_CONCLUIDO: 15.34%

    • CP: 0.15%

  • Contiene registros de junio de 2019 a abril de 2023.

  • Los años 2019 y 2020 recibieron menos solicitudes. El año completo con más solicitudes fue 2021. 

  • La cantidad de solicitudes baja a finales de año. Los picos más pronunciados coinciden con la fecha de ocurrencia de temblores. 

  • El rango de horario con mayores solicitudes es de las 10 a las 15 horas. 

  • Los 5 temas más solicitados son : 

    • "PODA / RETIRO ARBOL": 11,374 solicitudes

    • "ALUMBRADO": 9,061 solicitudes

    • "ALERTA SISMICA": 4,732 solicitudes

    • "FALTA DE AGUA": 4,540 solicitudes

    • "MANTENIMIENTO VÍA PÚBLICA": 4,364 solicitudes

  • Las 5 unidades territoriales que más solicitan son: 

    • "DEL VALLE III": 5,879 solicitudes

    • "NARVARTE V": 4,895 solicitudes

    • "PORTALES I": 3,938 solicitudes

    • "SAN PEDRO DE LOS PINOS": 2,932 solicitudes

    • "ALAMOS I": 2,803 solicitudes

  • El único tema en que los hombres hacen más solicitudes que las mujeres es “mantenimiento de la vía pública”

  • Inconsistencias en la información:

    • EDAD: la gráfica de barras muestra registros de 0 años

    • Latitud y longitud: el mapa trazado muestra puntos fuera de la Ciudad de México, incluso fuera del país. 

Las siguientes gráficas son ejemplo del análisis exploratorio realizado a partir de visualizaciones.

 

Una vez que se han entendido los datos, se eligió la pregunta a responder: ¿Qué relaciones hay entre los temas más solicitados y las unidades territoriales a través del tiempo,  y cómo han cambiado los temas solicitados  considerando años, meses y horarios?” Para responder esta pregunta, se eligió el top 10 de temas durante los años 2020, 2021 y 2022. 

 

A fin de ofrecer un panorama general, se construyó un mapa de calor que representa las 10 principales temáticas de las solicitudes ciudadanas de 2020 a 2022, en las 20 unidades territoriales con más solicitudes. Cada celda en el mapa de calor representa el número de solicitudes de una temática específica en una unidad territorial específica, con colores más oscuros que indican un mayor número de solicitudes. Las temáticas y unidades territoriales están ordenadas en función del número total de solicitudes.

 

Para visualizar los datos filtrados, se elaboró  una gráfica de líneas que muestra la cantidad de solicitudes a lo largo del tiempo para los cinco temas más solicitados en los años 2020 y 2021. Cada línea en la gráfica representa una temática y tiene un color único para facilitar su identificación. La gráfica resultante tiene el tiempo en el eje x  y el número de solicitudes en el eje y.

 

Para mostrar el detalle, se hicieron variables múltiples de gráfico de dispersión que muestra la distribución de las solicitudes por hora para los cinco temas más solicitados durante el año 2020, 2021 y 2022, respectivamente. Cada punto representa una hora del día (eje x) y el número de solicitudes recibidas en esa hora (eje y) para un tema específico. y cada  tema tiene su propio color.

 

Así, la historia se cuenta a través del siguiente conjunto de gráficos permite contestar a la pregunta “¿Qué relaciones hay entre los temas más solicitados y las unidades territoriales a través del tiempo,  y cómo han cambiado los temas solicitados  considerando años, meses y horarios?”:

 

  • Las unidades territoriales a lo largo de los años analizados muestran coincidencia en las mayores problemáticas reportadas; el mayor número de solicitudes se concentran en los mismos temas sin importar la unidad territorial, siendo la poda y retiro de árboles el que se posiciona en primer lugar.

  • La fluctuación por mes en cada uno de los años señalados muestra un incremento general a partir de 2021; asimismo, hay un patrón de crecimiento de solicitudes hacia el final de cada año. Los picos más evidentes corresponden al tema “Alerta sísmica”, en fechas que podrían estar relacionadas con ocurrencias de temblores percibidos en la alcaldía; se observan problemas de escasez de agua en la primera mitad del año 2021.

  • El promedio de solicitudes por hora del día durante cada uno de los años permite apreciar un patrón similar en el rango de horas con mayores solicitudes, y un alza de peticiones de “alumbrado” después de las 20 horas, principalmente en el primer año.

     

Image
¿Qué ha solicitado la gente en la alcaldía Benito Juárez durante 2020, 2019 y 2021?

 

A través de este repaso bibliográfico y ejemplos prácticos se ha buscado mostrar cómo la visualización de datos puede ser utilizada para explorar, analizar y comunicar hallazgos de manera eficaz, teniendo presente que su uso responsable y ético es esencial. Contar historias a través de visualizaciones es un recurso útil para transmitir conocimiento y debe ser usado con responsabilidad.

 

Referencias
  1. Berinato, S. (2016, Junio). Visualizations That Really Work. Harvard Business Review. Recuperado de https://hbr.org/2016/06/visualizations-that-really-work

  2. David McCandless. (2023). "Best in Show: The Ultimate Data Dog". En Information is Beautiful.Recuperado de https://informationisbeautiful.net/visualizations/best-in-show-whats-the-top-data-dog/

  3.  El Economista. (2017). Las palabras más pronunciadas por el presidente estadounidense Barack Obama en sus discursos de investidura y despedida [Gráfica]. En El Economista. Recuperado de  https://www.eleconomista.com.mx/arteseideas/Las-palabras-mas-utilizadas-por-Obama-en-sus-discursos-20170111-0174.html

  4. Gobierno de la Ciudad de México. (n.d.). Solicitudes *0311. Recuperado de https://datos.cdmx.gob.mx/dataset/0311

  5. Heer, J., Bostock, M., & Ogievetsky, V. (2010). A Tour through the Visualization Zoo. ACM Queue, 8(5), 1-12. Recuperado de http://queue.acm.org/detail.cfm?id=1805128

  6. Knaflic, C. N. (2015). Storytelling with Data: A Data Visualization Guide for Business Professionals. John Wiley & Sons.

  7. Levine, A. J., & Hartman, T. (2023). Typical turf heights [Gráfica] y Relative court speeds  [Gráfica]. En The grass courts are now in session. Reuters. Recuperado de https://www.reuters.com/graphics/TENNIS-WIMBLEDON/GRAPHIC/lbvggkzjmvq/

  8. McCandless, D. (2018). Star Wars Last Jedi: One of the Biggest Rotten Tomatoes Audience vs Critics Score Splits Ever. Information is Beautiful. Recuperado de https://informationisbeautiful.net/visualizations/star-wars-last-jedi-one-of-the-biggest-rotten-tomatoes-audience-vs-critics-score-splits-ever/

  9. Yau, N. (2023). More Dual Income, No Kids [Gráfica]. En FlowingData. Recuperado de https://flowingdata.com/2023/03/15/more-dual-income-no-kids/

  10. Yau, N. (2022). Life Satisfaction and Age [Gráfica]. En FlowingData. Recuperado de https://flowingdata.com/2022/11/10/life-satisfaction-and-age/

  11. Shneiderman, B. (1996). The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations. Department of Computer Science, Human-Computer Interaction Laboratory, and Institute for Systems Research, University of Maryland. Recuperado de https://www.cs.umd.edu/~ben/papers/Shneiderman1996eyes.pdf

  12. The Economist. (2023). Graphic detail [Captura de pantalla]. The Economist. https://www.economist.com/graphic-detail

  13. Tufte, E. R. (2001.). The Visual Display of Quantitative Information (2da ed.). Graphics Press. 

  14. Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1-23. Recuperado de https://vita.had.co.nz/papers/tidy-data.pdf

  15. Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1–23. https://doi.org/10.18637/jss.v059.i10

  16. Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O'Reilly Media. Recuperado de https://r4ds.had.co.nz/index.html

  17. Wilke, C. O. (2019). Fundamentals of Data Visualization. O'Reilly Media. Recuperado de https://clauswilke.com/dataviz/index.html

  18. Yau, N. (2011). Visualize This: The FlowingData Guide to Design, Visualization, and Statistics. Wiley. Recuperado de https://onlinelibrary.wiley.com/doi/book/10.1002/9781118722213