Covid-19: datos y certidumbre

Dra. Alma X. González Morales, Dr. Luis A. Ureña López

Departamento de Física, Universidad de Guanajuato.

Uno de los retos más formidables de la ciencia moderna es el entendimiento de la evolución del Universo como un todo. ¿Cómo poder conocer aquello que está tan lejano, en distancia y tiempo, de nuestro planeta? Y sin embargo, se mueve: ponemos un pie firme en nuestro conocimiento actual y local de la naturaleza y, bajo suposiciones claras, lo extendemos al cosmos entero. En esta pequeña contribución, intentaremos explicar cómo las técnicas de análisis de datos que aplicamos al estado del Universo pueden darnos información y certidumbre sobre la evolución de la epidemia Covid-19. Este es el primero de varios posts que escribiremos sobre el tema, y es una versión extendida del artículo que escribimos para eUGreka. También verás que hemos actualizado algunos datos y fechas a la fecha de aparición de este post.

Todos sabemos que es difícil tomar decisiones sobre eventos futuros, y esto es debido principalmente a nuestra ignorancia acerca de qué parte de la información presente tiene mayor relevancia en la estimación futura que nos interesa. Esta disyuntiva fue un aspecto central en el trabajo de Amos Tversky[1] y Daniel Kahneman[2] (Premio Nobel de Economía 2002), de quienes es conocido el siguiente ejemplo que la ilustra perfectamente. 

Suponga lector que le mencionan lo siguiente: “Pablo es muy tímido y retraído, invariablemente servicial pero con muy poco interés en las personas o en el mundo de la realidad. Es un alma mansa y ordenada, tiene una necesidad de orden y estructura, y una pasión por los detalles. ¿Qué es más probable: que Pablo sea bibliotecario o agricultor?”. La respuesta correcta es: agricultor. El punto central es que debemos buscar en la información proporcionada cuál es la pieza que nos da mayor certeza sobre la profesión de Pablo, y esa es que hay más agricultores que bibliotecarios. Por tanto, es más probable que Pablo sea agricultor.

Lo anterior no es más que un ejemplo del uso del llamado Teorema de Bayes para el cálculo de probabilidades (T. Bayes, 1763). Este centenario teorema nos indica, de manera resumida, que el cálculo de la probabilidad de un suceso depende del peso que cada pieza de información tiene sobre la pregunta que estamos formulando[3]. El uso contemporáneo en ciencia del teorema de Bayes ha llevado al desarrollo de la inferencia Bayesiana, que es de amplio uso en el análisis de datos y en la estimación que de ellos hacemos sobre los fenómenos naturales, como por ejemplo la evolución del Universo.

Dejando para otra ocasión los detalles más técnicos, junto con otros investigadores del del grupo de gravitación y física matemática de la UG nos dimos a la tarea de hacer una estimación sobre la posible evolución de la epidemia Covid-19 a partir de los datos proporcionados por la Secretaria de Salud. Para ser lo más fieles posible al espíritu de la inferencia Bayesiana, tuvimos que establecer una serie de suposiciones de trabajo. Entre ellas: que los datos proporcionados diariamente siguen la evolución del número de infectados, y que este número debe ir alcanzando un punto de saturación en el futuro cercano. La primera suposición no es absoluta, ya que los sistemas de recopilación de los datos de la Covid-19 no tienen una regularidad absoluta en ninguna parte del mundo. Esto lo tomamos en cuenta parcialmente asumiendo que el número que nos reportan tiene una incertidumbre intrínseca, la cual modelamos a partir de una distribución de Poisson[4]. La segunda suposición está basada en estudios teóricos de epidemias pasadas, en la que la saturación de la infección sucede al llegar el punto en que no hay más personas sanas disponibles para la enfermedad. Para modelar esta saturación usamos una función logística (o sigmoide), que es ampliamente conocida dentro de los estudios epidemiológicos[5]. En otros post ahondaremos en el efecto que tiene el uso de una u otra distribución de probabilidad y/o modelo utilizado.

Para realizar este proceso de inferencia Bayesiana, usamos el acumulado de los confirmados positivos y de los fallecimientos, ya que ambas series de datos puedan proporcionar información independiente sobre la evolución de la infección: la primera sobre la aparición de los síntomas y su diagnóstico, la segunda sobre la tasa de mortalidad con respecto al número total de infectados. Vale la pena señalar que los resultados de este análisis son indicativos, dependen fuertemente de los datos usados, y que una de las limitantes del modelo es que solo nos dará los números finales una vez terminada la epidemia. Antes de que eso suceda los resultados se van actualizando con cada nuevo dato, la ventaja es que cuando veamos que el resultado final ya no cambia drásticamente sabremos que estamos terminando. Dicho esto, los resultados son los siguientes (con datos hasta el 30/Abril): una saturación, hacia el final de la epidemia, de 48,270 confirmados positivos, y otra de 35,403 para los decesos. 

Aquí terminaríamos si este fuera otro artículo más sobre predicciones de la Covid-19 en México, y los números anteriores harían un buen encabezado dramático en los periódicos. Pero hay una pieza final de información a la que nadie parece ponerle atención y que es importante: la (in)certidumbre en la estimación, la cual podemos calcular gracias a la inferencia Bayesiana. Para nuestro caso, el número de fallecimientos totales es 35,403(+27,270)(-25,024); esto es, ¡hay un 77% de incertidumbre! El número final puede ser tan alto como 62,673 o tan bajo como 10,379. Para el caso de confirmados positivos, las cantidades respectivas son 43,976(+38,202)(-16,257), con un 87% de incertidumbre. Aquí también el número final puede ser tan alto como 82,178 o tan bajo como 27,719.

Las cantidades arriba deben tomarse como estimaciones únicamente, sin olvidar que pueden cambiar conforme se vaya desarrollando la epidemia ya que los modelos epidemiológicos no son exactos, ni tampoco los datos, como mencionábamos antes. Pero nos pueden ser útiles para conocer las expectativas de lo que puede suceder, y ayudarnos y motivarnos a tomar acciones necesarias.

En resumen: ¿de qué dependen las cantidad finales? De nosotros y de lo hagamos en las próximas semanas. De seguir las indicaciones de las autoridades municipales, estatales y federales. Por eso, cuídate y quédate en casa.

Agradecemos a la Universidad de Guanajuato, el alma mater del estado, por el llamado que hizo a su comunidad científica y que sirvió de inspiración para este ensayo.

[1] https://en.wikipedia.org/wiki/Amos_Tversky

[2] https://es.wikipedia.org/wiki/Daniel_Kahneman

[3] https://es.wikipedia.org/wiki/Teorema_de_Bayes

[4] https://es.wikipedia.org/wiki/Distribución_de_Poisson

[5] https://es.wikipedia.org/wiki/Función_log%C3%ADstica

Leave a Reply

Your email address will not be published. Required fields are marked *