The Data Pub enero: Predicciones de riesgo global (2° lugar Factored Datathon 2024)
29 de Enero de 2025

César Arroyo Cárdenas
Modalidad
¿De qué va la charla?
En esta charla exploraremos el proyecto ganador del segundo lugar del Factored Datathon 2024 ganado por LatamFusion. Esta solución, desarrollada en solo 2 semanas, comprende un flujo completo de un proyecto predictivo de datos masivos. Desde la descarga de datos, pasando por la ingesta diaria de nuevos datos, y un flujo totalmente automatizado que va desde los datos crudos hasta la generación de alertas mediante la predicción de series de tiempo. El proyecto usó tecnologías tan variadas como Azure Functions, Docker, SQL Server, CI/CD, Machine Learning, Databricks, entre otros. Finalmente, la información se hizo visible a partir de un aplicativo web desarrollado en Streamlit.
La base de todo el proyecto fue el Global Database of Events, Language, and Tone (GDELT). Este compila noticias de todo el mundo en diferentes formatos como radio, prensa y noticias web, y en más de 100 lenguajes. Mantenido por Google Jigsaw, y abierto a descarga para cualquier persona u organización, el proyecto GDELT busca dar una visión global del estado actual de las diferentes naciones y sociedades alrededor del mundo. Mediante el procesamiento diario de las noticias se identifican actores, eventos, temas, y emociones; siendo de forma efectiva una plataforma abierta para el entendimiento del mundo.
Además de los detalles técnicos, necesarios para lograr un objetivo tan competitivo, se hará una reflexión sobre las características y prácticas que llevó el equipo para la consecución de este logro.
La agenda es la siguiente:
7:00pm - 7:30pm: Bienvenida y anuncios
7:30pm - 8:45pm: Predicciones de riesgo global (2° lugar Factored Datathon 2024)
8:45pm - 9:00pm: Pizzas y networking
Más sobre los ponentes
César Arroyo Cárdenas se desempeña actualmente como Coordinador de Ciencia de Datos en Distribuciones Cantilever, dónde se encarga de la creación e implementación de productos analíticos y predictivos que permitan avanzar la tecnología IoT en el sector eléctrico mexicano. Cuenta con 5 años de experiencia trabajando en el área de datos y con una Maestría en Ciencias (Física) por parte de la UNAM donde hizo parte de la colaboración científica Dark Energy Spectroscopic Instrument (DESI). Su trayectoria incluye sectores muy diversos como la industria eléctrica, el IoT, el real estate y la cosmología observacional. En estos ha contribuido en el desarrollo de ETLs mediante SQL, desarrollo de reportes en Power BI, aprendizaje no supervisado para caracterización de comportamientos y pronóstico de series de tiempo.