Comentario económico, político y cultural, con perspectiva global e histórica. El título es el apodo de Oslo, desde donde escribo, y proviene de un antiguo poema que habla de una ciudad hostil. El apodo ahora es válido para la urbe global en que vivimos.

« Simplificaciones peligrosas de la Copa Mundial de Fútbol* | Inicio | El miedo a la libertad »

03/07/2014 18:36:48

Y los ganadores de la Copa Mundial de Fútbol serán...

...los grandes datos (o "big data", como se les conoce en inglés). Si bien es un poco prematuro predecir con certeza qué equipo será campeón mundial de fútbol después del 13 de julio, no cabe duda de que innovadoras herramientas estadísticas están triunfando en el mundo de los deportes. A pesar de mi relativa ignorancia futbolística, no me podía quedar atrás. A continuación describo mi propio modelo estadístico y sus pronósticos para lo que queda del mundial. 

Camp Nou & Big Data
Vista del Camp Nou atravesado alegóricamente por un código binario.
Fuente: Elaboración propia con fotos de Wikimedia Commons por Mutari (2005) y DARPA (2013)  

 


El uso de datos empíricos para analizar estrategias, tácticas y rendimiento deportivo no es nada nuevo. De igual manera, una serie de individuos e instituciones a nivel global han recopilado, organizado, analizado, interpretado y presentado una creciente cantidad de datos sobre estrategias, tácticas y rendimientos estatales, desde que Gottfried Achenwall popularizó el término Statistik en 1749 con su obra Staatswissenschaft der vornehmsten Europäischen Reiche und Republickenmejor conocida en español como "Elementos de Estadística de los principales Estados de Europa".  Pero lo que sí resulta relativamente innovador, tanto en los deportes como en la política, es el deseo de emplear conjuntos de datos colosales, a veces en el rango de los exabytes, que no pueden ser manejados por las aplicaciones de procesamiento de datos tradicionales. A este tipo de información se le conoce con el término general de "grandes datos", que proviene de la expresión en inglés "big data".

Big data: Una revolución en pañales
De hecho, muchos recordarán como hace poco más de un año, se atribuyó mucha de la responsabilidad de la victoria electoral de Barack Obama al énfasis que Dan Wagner y su equipo en "la cueva" pusieron en su trabajo con big data sobre las preferencias electorales de los estadounidenses. Y aunque la contribución real del big data a esta victoria electoral se ha problematizado, no cabe duda de que la última elección presidencial estadounidense ilustró una nueva forma de pensar sobre la manera de hacer política electoral, inspirada en desarrollos tecnológicos que permiten una mejor recopilación y procesamiento de datos. Y si bien esta nueva manera de pensar está relacionada con un progreso cuantitativo, la magnitud de este salto cuantitativo puede también tener consecuencias cualitativas. Se trata de una revolución dentro de la revolución informática y, si no es el caso todavía, afectará todos los ámbitos de nuestras vidas.

Hemos a penas empezado a rascar la superficie del big data, y a saborear lo que implica, a través de las nuevas posibilidades abiertas por medios sociales virtuales, nuevas estrategias de mercadeo y nuevos métodos de investigación. Pero esto es solo el comienzo. En la cultura popular, una ilustración representativa de esto fue presentada por la película de 2011 "Moneyball", basada en el libro de Michael M. Lewis publicado en 2003 "Moneyball: The art of winning an unfair game" ("Moneyball: El arte de ganar un juego injusto"), y protagonizada, entre otros, por Brad Pitt, Jonah Hill y Philip Seymour Hoffman. El argumento principal de la película es la superioridad de la información estadística detallada para fundamentar la toma de decisiones en el deporte profesional. De acuerdo con el libro y la película, tal perspectiva terminó por revolucionar el béisbol de las Grandes Ligas, previendo los cambios tecnológicos exponenciales que se avecinaban. Tal vez esta Copa Mundial de Fútbol esté jugando un rol parecido.

La señal y el ruido 
Fue en este contexto cultural que figuras del mundo de las estadísticas y las matemáticas, como Dan Wagner (de Civis Analytics) y Nate Silver (de FiveThirtyEight), se volvieron mundialmente conocidas, muchas veces asociadas con la noción de big data, aunque el trabajo que hacen no siempre cae dentro de esta categoría. De hecho, Silver se volvió famoso por su trabajo prediciendo los resultados de la elección presidencial estadounidense de 2012, algo que ha contribuido a la popularización de las matemáticas y las estadísticas en ámbitos políticos. Su libro del mismo año "The signal and the noise" ("La señal y el ruido") explica a grosso modo algunas de sus perspectivas y técnicas estadísticas.

Antes de su incursión en el mundo de la política, Nate Silver dedicó gran parte de sus esfuerzos a la predicción deportiva en el béisbol de las Grandes Ligas. Su punto de partida era por supuesto bases de datos detalladas sobre los jugadores y equipos en cuestión. Es por ello que el canal de televisión ESPN también contrató los servicios de Silver, para desarrollar modelos de predicción de los resultados de fútbol profesional. Fue de esta cooperación que nació el Soccer Power Index - SPI (Índice de poder futbolístico), que es una medida estadística de la calidad futbolística de los equipos. Este índice se explica con más detalle en este artículo por Nate Silver, así como en esta guía técnica y la lista de preguntas más frecuentes sobre el SPI con sus respectivas respuestas.

Pero aunque la mayoría quizá conozca mejor a Silver, hay también muchos otros investigadores haciendo trabajo parecido, ya sea independientes o asociados a una institución. Estos investigadores han hecho esfuerzos similares por desarrollar técnicas avanzadas de predicción estadística de partidos y torneos de fútbol. Tales esfuerzos por separar las señales de los ruidos estadísticos en el fútbol, ilustran los vientos que soplan tecnológicamente en la sociedad global, aunque inicialmente estén limitados al deporte.

Algunos ejemplos
Sin pretensiones de presentar una lista exhaustiva de todos los esfuerzos que se hacen mundialmente en esta dirección, es posible nombrar algunos ejemplos relevantes:

Un caso interesante es el de David Dormagen, del grupo de trabajo sobre inteligencia artificial del Departamento de matemáticas y ciencias de computación de la Freie Universität Berlin (Universidad libre de Berlín). Como Dormagen escribe en este artículo, su trabajo ha tomado en cuenta una serie de indicadores de poder futbolístico, con el propósito de minimizar los riesgos de tratar con valores atípicos. El resultado de su trabajo y el de sus colaboradores es un modelo perfectamente funcional disponible en Internet. 

Así como Dormagen, el grupo de banca e inversión Goldman Sachs se ha lanzado a la tarea de crear su propio modelo de predicción para la Copa Mundial de Fútbol. 

Mientras tanto, Achim Zeileis, Christoph Leitner y Kurt Hornik, de la Universität Innsbruck (Universidad de Innsbruck) y la Wirtschaftsuniversität Wien (Universidad de Economía de Viena), trabajan con desarrollar un modelo similar.

Una aproximación: La distribución de Poisson 
En términos generales, la mayoría de estos modelos tienen dos elementos en común:

Primero, se basan en información estadística histórica para encontrar promedios de goles anotados a favor y goles anotados en contra por equipo de fútbol. Segundo, suponen alguna distribución de probabilidad para los goles anotados por cada equipo. De acuerdo con estudios realizados, una distribución de Poisson suele ser una aproximación cercana, aunque no perfecta, a la distribución de probabilidad (por equipo) de anotar distintas cantidades de goles en cada partido de fútbol. Esta distribución también es relativamente inexacta, comparada con otras distribuciones que sí toman en consideración cómo los goles anotados por equipo refuerzan la probabilidad de que se anoten más goles. Sin embargo, para simplificar el análisis, siguiendo las mismas consideraciones que hace Dormagen, es válido usar una distribución de Poisson simple por equipo, siempre y cuando los valores de goles esperados se actualicen constantemente con información estadística reciente. A partir de esto, es posible hacer modelos sencillos que tomen en cuenta más variables, y proceder a simular distintos escenarios.

La función de probabilidad de Poisson tiene la siguiente forma: 

f(k,\lambda)=\frac{e^{-\lambda} \lambda^k}{k!}

k = Goles por partido

λ = Goles esperados por partido. Es decir, el valor esperado de k, con base en una serie de partidos anteriores. Habrá valores de λ por equipo específicos para cada partido en particular, los cuales resultarán de las combinaciones de expectativas de goles a favor y permitidos por cada equipo.

e = Número e

La distribución de probabilidad conjunta, de anotar goles y recibir goles en contra, se forma al multiplicar las distribuciones de probabilidad de cada equipo. Este procedimiento asume que la distribución de probabilidad de goles a favor no está determinada por la probabilidad de recibir goles en contra, ni por la probabilidad de anotar goles a favor. Es un supuesto que, como mencionado arriba, puede estar alejado de la realidad, porque podemos esperar que un equipo ajustará su esfuerzo por anotar goles, cuando ya le han/ha anotado alguno(s). Pero siempre y cuando esto se tome en cuenta, los modelos basados en la distribución de Poisson se vuelven una útil aproximación simple y estática. Como en todo modelo, sus resultados deben leerse con cautela. 

Durante mis intentos por aprender más sobre estos modelos, me topé con el problema de que casi todos intentan proporcionar pronósticos globales, es decir, para los resultados de todo el campeonato. Pero no hay una herramienta pública que permita calcular las probabilidades que cada equipo tiene de ganar, empatar o perder, juego por juego. Las única excepción son los creadores del SPI de FiveThirtyEight/ESPN, quienes ocasionalmente presentan selectivamente información de partidos individuales, pero sin dejar a los lectores manipular estos cálculos, o sin explicar exactamente cómo se ha llegado a estas conclusiones. También hay un proyecto interesante, que parece ser una cooperación entre University of Iowa (Universidad de Iowa), la Universidad Hanyang, la Universidad de Corea, la Universidad Sun Yat-sen y la Universidad Nankai. Pero a pesar de tener buenas explicaciones gráficas de su método, que parece tener paralelos al de FiveThirtyEight/ESPN, no es posible hacer cálculos exactos desde la página de Internet. Paralelamente, descubrí recientemente football-lab.com, el cual ha sido desarrollado, de acuerdo con sus creadores, por "tres economistas amantes del fútbol y expertos en teoría de juegos y econometría bayesiana." El problema es que football-lab.com "está basado en en los mercados de apuestas." Quiere decir que toma un punto de partida en apreciaciones subjetivas, en vez de datos empíricos generados en la cancha por los jugadores en cuestión. Football-lab.com tampoco presenta información técinca sobre cómo se calculan las probabilidades.

MEFUT - Brasil 2014
Esta frustración me llevó a intentar desarrollar un modelo similar, el cual por falta de mejores alternativas he bautizado MEFUT - Brasil 2014 (Modelo Estadístico de Fútbol - Brasil 2014). En un principio es un modelo que puede realizar todo lo que los otros modelos hacen. Sin embargo, debido a mi falta de capacidad computacional física y tiempo para el procesamiento de datos, he tenido que limitar el uso del modelo a la predicción de partidos individuales, al menos hasta recientemente, que es a fin de cuentas lo que quería lograr. El modelo se basa en el método de simulación conocido como Método de Monte Carlo, con diez mil extracciones por simulación. Según mis cálculos esto implica milliones de operaciones por cada equipo de fútbol. No obstante, el hecho de que nos acerquemos a la final del campeonato reduce la cantidad de operaciones necesarias para simular resultados posibles, por lo cual es menos laborioso hacer predicciones globales para el resto del campeonato. 

Los insumos para predicciones sobre el campeonato en general son los resultados de simulaciones de partidos individuales, presentados por el modelo de la siguiente manera:

Ejemplo de resultados parciales de MEFUT - Brasil 2014.
Simulación de Brasil - Uruguay

Simulación de Brasil - Uruguay con datos del 3.7.2014

Simulación de Brasil- Uruguay con datos del 3.7.2014
Se han añadido curvas, entre los puntos del diagrama de dispersión,
con meros propósitos ilustrativos. 

Distribución de probabilidad de resultados posibles. Simulación de Brasil - Uruguay con datos del 3.7.2014

Distribución de probabilidad de resultados posibles.
Simulación de Brasil - Uruguay con datos del 3.7.2014
Se usa un diagrama de barras, en vez de un diagrama de dispersión,
con meros propósitos ilustrativos.

Predicciones de MEFUT - Brasil 2014. Datos del 3.7.2014
(Ver actualización del 6.7.2014 y 11.7.2014 más abajo)

Estas simulaciones están basadas en los datos más actualizados del índice SPI de FiveThirtyEight/ESPN del 3 de julio de 2014. El modelo prioriza información como la cantidad de goles promedio anotados y recibidos por los equipos en una serie de partidos. Sin embargo, este índice también está ajustado para tomar en cuenta cosas como: coeficientes de competitividad por equipo, es decir, el valor competitivo de los torneos en que los goles han sido anotados; el desempeño reciente de los jugadores de cada equipo; y la proporción de titulares en el equipo de once jugadores. Además, tomando en cuenta estimaciones de Goldman Sachs, sería posible incluir ajustes a la ventaja de cancha, tanto de país para Brasil (cerca de 0,4 goles a favor por partido), como de continente (hasta 0,2 goles a favor por partido) para todas las selecciones americanas. Pero esta posibilidad se ha obviado del análisis, para evitar perturbaciones a las estadísticas de ESPN, las cuales intentan eliminar el efecto de consideraciones similares. Pero dependiendo de la magnitud del error en la estimación de esta consideración, puede ser que las selecciones americanas estén sobre/subestimadas, especialmente Brasil, por jugar en casa o en el continente de donde provienen.

El modelo arrojó la siguiente matriz de probabilidades que cada equipo tiene de derrotar a otro en los partidos que quedan del mundial. Debido a que los partidos que quedan son cuartos de final, semifinales y la final, se ha excluido la probabilidad de empates de los cálculos.

Probabilidad de que el equipo A derrote al equipo B con datos del 3.7.2014
(Actualización del 6.7.2014 más abajo)

Probabilidad de que el equipo A derrote a B con datos del 3.7.2014

Probabilidad de que el equipo A derrote a B con datos del 3.7.2014

EscalaCon esta información es posible calcular las probabilidades que cada equipo tiene de pasar de cuartos de final, ganar la semifinal y en última instancia la final. Presento también estos resultados a continuación:

Probabilidad de ganar cuartos, semifinales y final por equipo con datos del 3.7.2014
(Actualización del 6.7.2014 y 11.7.2014 más abajo)

Probabilidad de ganar cuartos de final, semifinales y final con datos del 3.7.2014

Probabilidad de ganar cuartos de final, semifinales y final con datos del 3.7.2014

Queda claro que, como están las cosas, ningún equipo parece tener siquiera una probabilidad media de ganar la Copa Mundial Fútbol. Según el MEFUT Brasil 2014, con datos del 3.7.2014, los favoritos para ganar la Copa Mundial de Fútbol son Brasil y Argentina, seguidos por Colombia, Alemania y Holanda. Pero de acuerdo con esta información, nada está escrito, y como ha demostrado Costa Rica, todo puede pasar. Por el momento, lo único que podemos afirmar con relación a esta exposición es que la perspectiva del big data ha venido para quedarse en el mundo del deporte como una herramiente útil. Esto queda muy bien ejemplificado en este artículo sobre Lionel Messi. Tomará un tiempo desarrollar teconologías, técnicas y actitudes para explotar la perspectiva del big data al máximo en todos los ámitos de la sociedad. Pero cuando ese día llegue, ya nada será igual, para bien y para mal.  

(3.7.2014)

________________________________________

Actualización del 6.7.2014
(Ver actualización del 11.7.2014 más abajo)

Los cuatro equipos favoritos, que de acuerdo a MEFUT - Brasil 2014 tenían la probabilidad más alta de pasar a semifinales, ganaron sus respectivos partidos de cuartos de final: Holanda, Argentina, Brasil y Alemania. Esto rinde una nueva matriz de posibilidades con sus respectivas probabilidades, ya que podemos excluir a los contrincantes que no clasificaron. Además, las estadísticas utilizadas han sido actualizadas para tomar en cuenta cosas como el desempeño individual reciente de jugadores. A continuación presento los nuevos cálculos con datos del 6.7.2014. Es importante resaltar que no se ha considerado cómo un equipo se verá afectado por lesiones o suspensiones. Pero para poner las cosas en perspectiva, de acuerdo a estimaciones, la ausencia de Neymar tendrá un impacto negativo neto de 0,19 en los goles a favor de Brasil. Resalto que se trata de un impacto neto, porque esto es después de incorporar al análisis los efectos de substitutos. Tampoco se incluyen consideraciones sobre la ventaja de cancha de Brasil y Argentina. De acuerdo con este estudio de Goldman Sachs, la ventaja de cancha implica cerca de 0,6 goles a favor por partido para Brasil y cerca 0,2 goles a favor para Argentina.

Probabilidad de que el equipo A derrote al equipo B con datos del 6.7.2014
(Ver actualización del 11.7.2014 más abajo)

Probabilidad de que el equipo A derrote a B con datos del 6.7.2014
Probabilidad de que el equipo A derrote a B con datos del 6.7.2014

Probabilidad de ganar semifinal y final con datos del 6.7.2014
(Ver actualización del 11.7.2014 más abajo)
 

Probabilidad de ganar semifinales y final con datos del 6.7.2014
Probabilidad de ganar semifinales y final con datos del 6.7.2014

Actualización del 11.7.2014

Brasil fue derrotado por Alemania 7 - 1 en la semifinal del 8.7.2014.  De acuerdo con el modelo, había tan solo una probabilidad de 0,04 % de que esto sucediera. En otras palabras, aceptando todos los supuestos del modelo, solo 4 de cada 10 000 juegos entre estas selecciones de Brasil y Alemania terminarían 7 - 1 a favor de Alemania. Vale mencionar también, como una de las investigaciones que cito arriba demuestra, que es en las colas de las distribuciones de probabilidad que hay mayor error de estimación de probabilidades de marcadores. Un marcador de 7 - 1  se encuentra en la cola derecha de la distribución de probabilidad de goles de Alemania. Quiere decir que un marcador de 7 - 1 entre estas selecciones de Alemania y Brasil era muy improbable, pero siempre posible. Para tener una referencia más específica, podemos comparar esta probabilidad con la de obtener 10 caras (o coronas) seguidas, al tirar una moneda al aire 10 veces. Esto tiene cerca de 0,1 % de probabilidad de suceder. De acuerdo con el modelo utilizado, el resultado observado en el partido entre Alemania y Brasil del 8.7.2014 era ligeramente menos probable que obtener 10 caras (o coronas) seguidas, al tirar una moneda al aire 10 veces. Pero esto no quiere decir que el modelo no haya predicho que, el resultado de 7 - 1, fuera un evento posible. Sin embargo, podemos afirmar que el partido entre Alemania y Brasil del 8.7.2014 tuvo un resultado atípico.

Mientras tanto, el resultado del partido entre Argentina y Holanda del 9.7.2014 fue menos sorprendente, pero siempre algo especial. El encuentro terminó 0 - 0, después de los primeros dos tiempos. De acuerdo con el modelo, este es un resultado que tenía tan solo 4 % de probabilidad de suceder. Al final, los ganadores fueron los jugadores de la selección de Argentina en ronda de tiros desde el punto de penal. El modelo señalaba que esta selección de Argentina ganaría 53 de cada 100 partidos contra esta selección de Holanda.

Quiere decir que habrá los siguientes dos partidos el fin de semana del 12-13.7.2014: Brasil y Holanda disputarán el tercer puesto, y Alemania y Argentina jugarán por la Copa Mundial de Fútbol.

A continuación presento los pronósticos de MEFUT Brasil 2014, con datos del 11 de julio de 2014. Para excluir la probabilidad de empates, por ejemplo, en caso de que un partido se defina en tiempo extra o ronda de tiros desde el punto de penal, basta con dividir la probabilidad de empatrar en los primeros dos tiempos, y distribuirla equitativamente entre los dos equipos. Sin embargo, es importante señalar que el error de estimación de probabilidad es más grande cuando un partido termina en ronda de tiros desde el punto de penal. El motivo de esto es que la distribución de Poisson empleada no describe bien lo que ocurre en este tipo de situación. Por ello, en tal caso, las cifras deben leerse con especial cautela.

Probabilidad de ganar, empatar o perder en los dos primeros tiempos del partido por el tercer puesto
Probabilidad de ganar, empatar o perder
en los dos primeros tiempos del partido por el tercer puesto
Distribución de probabilidad de goles totales por equipo en los dos primeros tiempos del partido por el tercer puesto
Distribución de probabilidad de goles totales por equipo
en los dos primeros tiempos del partido por el tercer puesto
Distribución de probabilidad de marcadores posibles en los dos primeros tiempos del partido por el tercer puesto
Distribución de probabilidad de marcadores posibles
en los dos primeros tiempos del partido por el tercer puesto
Probabilidad de ganar, empatar o perder la final en dos primeros tiempos
Probabilidad de ganar, empatar o perder la final en los dos primeros tiempos
Distribución de probabilidades de goles totales por equipo en los dos primeros tiempos de la final
Distribución de probabilidades de goles totales por equipo
en los dos primeros tiempos de la final
Distribución de probabilidad de marcadores posibles en los dos primeros tiempos de la final
Distribución de probabilidad de marcadores posibles en los dos primeros tiempos de la final

Comentarios

Fuente You can follow this conversation by subscribing to the comment feed for this post.

Verifica el comentario

Vista previa del comentario

Esto sólo es una vista previa. El comentario aún no se ha publicado.

Ocupado...
Your comment could not be posted. Error type:
Se ha publicado el comentario. Publicar otro comentario

Las letras y números que has introducido no coinciden con los de la imagen. Por favor, inténtalo de nuevo.

Como paso final antes de publicar el comentario, introduce las letras y números que se ven en la imagen de abajo. Esto es necesario para impedir comentarios de programas automáticos.

¿No puedes leer bien esta imagen? Ver una alternativa.

Ocupado...

Publicar un comentario