lunes, 9 de junio de 2014

Mundial Brasil 2014: Este año habrá carnaval en Julio...

Este año, habrá carnaval en Julio... 

El lujo de jugar desde la estadística

Por Ienzo Duarte y Guillermo Byrne 1

I. Introducción.

Ésta es la tercera edición de nuestro modelo estadístico desarrollado para predecir los resultados de los mundiales. Aunque sabemos que el fútbol tiene más de arte que de ciencia, creemos que cada vez más los resultados en los deportes son un producto del nivel competitivo de sus participantes y que por ello, hay menos espacio para el azar en los eventos profesionales.

Nuestra hipótesis de que el nivel competitivo de los equipos es un aspecto fundamental en el resultado final de los encuentros, no sólo es importante en el ámbito de la predicción sino que, por el contrario, esperemos que sea mucho más relevante en el planeamiento de proyectos deportivos.

Por ello, este modelo, como sus predecesores, incluye variables estrictamente deportivas lo que lo diferencia de otros análisis predictivos, que incluyen variables económicas, demográficas y hasta políticas en sus metodologías.

II. El Modelo. “El futuro del fútbol está en el pasado”, Angel Cappa

Para la elaboración del modelo se ha considerado los resultados de los 360 partidos disputados en los mundiales de Italia 90, USA 94, Francia 98, Corea-Japón 2002, Alemania 2006 y Sudáfrica 2010. Dado que para cada encuentro se mide la probabilidad de que el equipo A le gane al equipo B, y luego se mide la probabilidad de que el equipo B le gane al equipo A, esta muestra nos permite contar con 720 observaciones2.

Las variables incluidas en el modelo final son:

1. El valor del equipo. "Al ver jugar a Pirlo, me pregunté si yo era jugador de fútbol". Gennaro Gattuso.

Construida como la suma individual del nivel competitivo de cada integrante de una selección. El valor individual se obtiene del valor del club de donde proviene el integrante, el cual está influenciado por la competitividad de la liga, el resultado obtenido en esa liga, así como los resultados del equipo en competencias internacionales3. En el Cuadro N°1 se muestra el ranking de los primeros 50 clubes con mayores puntajes para este mundial.



Para fines de cálculo del valor de cada selección, se procedió a definir la alineación probable de los 32 clasificados. Cada alineación cuenta con once titulares y cuatro suplentes. El resultado se presenta en el Cuadro N° 2, donde se aprecia que las primeras catorce selecciones se ubican por encima del promedio. Para destacar la sorprendente tercera ubicación de la selección de Bélgica, solo por detrás de España y Alemania, y por encima de las dos potencias sudamericanas.






2. El poder conjunto. "Ningún jugador es tan bueno como todos juntos", Alfredo Di Stefano.

Se utilizó el rating Elo para cuantificar el peso de las distintas selecciones. Dicha variable complementa a la primera pues suma al análisis de las individualidades el desempeño conjunto del plantel. En algunos casos, esta variable puede “corregir” el sesgo de tener un plantel lleno de estrellas pero que en conjunto no funciona. Tal como en los modelos anteriores el rating Elo resultó ser una variable estadísticamente más significativa que el ranking FIFA. En el Cuadro N°3 se muestra el rating para las 32 selecciones clasificadas.



3. La historia. “El fútbol es un juego simple: 22 hombres corren detrás de un balón durante 90 minutos y, al final, los alemanes siempre ganan”, Gary Lineker.

Esta variable intenta recoger la trayectoria de las selecciones participantes en este tipo de competencias. Creemos que más allá de la propia experiencia que pueden utilizar algunos jugadores a su favor por haber competido anteriormente en mundiales, esta variable realmente recoge la vocación y el aprendizaje acumulados de los países para el desarrollo de su fútbol. Es decir países con mucha trayectoria tienen más años acumulando capital humano e infraestructura necesarios para la evolución y perfeccionamiento del talento interno. Así por ejemplo, selecciones como Brasil o Alemania tienen una ventaja natural frente a cualquier selección por el foco que tienen en el fútbol como consecuencia de sus propias trayectorias.

El índice de la historia utilizado sería igual a 100 para la selección que hubiese resultado campeona en todos los mundiales. Es importante señalar que para la construcción de este índice, los resultados en los mundiales más recientes tienen un mayor peso que los mundiales más antiguos. En el Cuadro N°4 se observa el valor de esta variable para cada selección participante en esta edición del mundial.


4. La localía: nuevamente esta variable resultó altamente significativa para explicar los resultados históricos en los mundiales. Y es difícil que no lo sea cuando ocho de los veinte organizadores del mundial lograron acceder a la final y todos a excepción de EEUU, Japón y Sudáfrica (países no necesariamente tradicionales en el fútbol) lograron avanzar por lo menos hasta cuartos de final. El Cuadro N°5 muestra este fenómeno.



Además es preciso señalar que si bien Sudáfrica es la primera selección anfitriona que no superó la fase de grupos, se las ingenió para empatar con México y vencer a Francia, y quedó eliminada solo por diferencia de goles.

5. Finalmente se vuelve a incluir la variable del tercer partido como una variable dummy que ajuste aquellos partidos donde se enfrentan selecciones ya clasificadas a la siguiente ronda o completamente eliminadas, donde los resultados muchas veces distan de los resultados que se darían en plena competencia. En el Cuadro N°6 se pueden observar algunos resultados notorios de este efecto. 



III. Las Predicciones. “Las finales no se juegan...se ganan”, Alfredo Di Stefano.

Como se ha mencionado previamente, el modelo final estaría integrado por las cinco variables descritas en la sección anterior. De esta manera, la probabilidad de triunfo de un equipo en un determinado partido (definida como Y), responde a la siguiente función:


Y = f (VEQ, ELO, HIST, LOC, TP)

Donde:
  • -  VEQ: El valor del equipo en función de la competitividad de sus integrantes.
  • -  ELO: El nivel de puntos en el rating ELO para cada selección.
  • -  HIST: La historia de las selecciones en los mundiales.
  • -  LOC: El peso del local.
  • -  TP: El efecto del tercer partido.
Como se observa en el Cuadro N°7 el poder predictivo de este modelo es cercano al 70% sobre los resultados pasados si se considera únicamente la probabilidad de ganar, y del orden del 57% cuando se incluye el empate como un resultado posible. El porcentaje de aciertos de los clasificados a octavos se ubica en 80%, 77% para los participantes en cuartos, 75% para los semifinalistas, 75% para los finalistas y 67% para el campeón.



Mundiales como 1994, 2002 y 2010 resultan tener porcentajes más bajos que el promedio debido a la cantidad de sorpresas que se observaron en estos torneos. En 1994, Suecia, Nigeria y Bulgaria; en el 2002, Turquía, Senegal y Corea del Sur y en el 2010 las tempranas eliminaciones de Francia e Italia.

Para esta edición el modelo pronostica que Brasil será nuevamente el campeón enfrentando al campeón defensor, la selección española. Los otros dos semifinalistas serán Alemania, quien será eliminada por Brasil, y Argentina.

En los cuartos de final los brasileros dejarán atrás a los ingleses como en el 2002, los españoles a los italianos como en la final de la Eurocopa del 2012, los alemanes a los franceses como en el titánico partido de semifinales del 82 y los argentinos a los belgas como en la semifinal del 86.

Los otros ocho equipos que conformarán los clasificados a octavos serían Croacia en el grupo A, Holanda en el B, Colombia y Costa de Marfil en el C, Suiza en el E, Bosnia o Nigeria en el F, Portugal en el G y Rusia en el H. Cabe señalar que Chile y Uruguay son identificadas en el modelo como selecciones que pueden sorprender a Inglaterra y Holanda, respectivamente, ya que quedan virtualmente empatados en el segundo lugar de sus grupos con una ligera ventaja para los europeos.


IV. Datos curiosos

El modelo desarrollado no sólo permite encontrar diversas particularidades de las selecciones participantes sino que además permite ensayar algunos escenarios hipotéticos sobre selecciones no clasificadas o sobre la influencia de algunos jugadores en el desempeño de sus selecciones que quedaron fuera del torneo por diversas razones. Dentro de lo más destacado tenemos:
  1. La selección Peruana: la selección que jugó las últimas eliminatorias tiene un valor de equipo mayor a sólo 10 selecciones presentes en este mundial, siendo 40% menor que el promedio y 35% menor que la mediana de los participantes. De los países clasificados en Sudamérica sólo supera a Ecuador y no tendría chances de clasificar a octavos en ninguno de los grupos. Los llamados cuatro fantásticos (Pizarro, Farfán, Vargas y Guerreo) contribuyen con 55% del valor total, por lo que la ausencia de uno de ellos haría que el equipo pierda entre el 10%-20% del valor total.

  2. Las ausencias más dolorosas: entre los jugadores que más impactan a los valores de sus selecciones se encuentra en primer lugar la de Robbie Krusse, quien le resta 12% al valor total de Australia. Le siguen: Franck Ribery con 5.7%, Radamel Falcao con 2.7%, y Montolivo con cerca de 1%,.

    Otros casos como los de Carlos Tevez (Argentina), Roman Shirokov (Rusia), Rafael Van der Vaart (Holanda) o Marco Reus (Alemania) no afectan significativamente en la estadística al valor de sus equipos, debido a que estas selecciones cuentan con jugadores de similar competitividad que los reemplacen. Sin embargo, en los tres últimos casos, el efecto anímico puede resultar importante.

  3. Las mejores y peores líneas: Las mejores delanteras las tienen las selecciones de Argentina y Alemania, las cuales son más de dos veces mejor que la del promedio del torneo. España es la selección con el mejor mediocampo y defensa, puntuados en 2.4 y 2.0 veces sobre las del promedio del torneo, respectivamente. Bélgica también destaca a nivel defensivo. En el otro extremo, la selección de Irán tiene la peor defensa, la de Estados Unidos el peor mediocampo y la de Australia la peor delantera.

  4. Los partidos más parejos y disparejos: en el grupo C se observan mínimas diferencias entre los equipos (Colombia, Costa de Marfil, Grecia y Japón), lo que parece indicar varios empates. Adicionalmente habrán partidos como el México – Camerún del Grupo A, el Italia – Inglaterra del D o el Nigeria – Bosnia del E que el modelo los pronostica como virtuales empates. En el otro extremo, se observarán partidos como el Brasil – Camerún del Grupo A donde el primero tiene una probabilidad mayor a 90% de ganarlo. Con ese mismo favoritismo se encuentra Argentina cuando enfrente a Irán en el Grupo F y Alemania cuando choque con Estados Unidos en el G. 

    V. Lo imprevisible. “El fútbol es imprevisible porque todos los partidos empiezan cero a cero", Vujadin Boskov.

    Si bien es cierto que el modelo presentado intenta capturar el máximo de variables que puedan contribuir a explicar los resultados de un partido, sabemos de antemano que existen muchas otras variables que no han sido incluidas porque no pueden ser cuantificables (lesiones, suspensiones, la mano del técnico, la presencia de jugadores valiosos que al final de su carrera juegan en ligas poco competitivas, entre otros). Este conjunto de variables evidentemente genera distorsiones en las predicciones que, gracias a Dios, hace que el fútbol tenga sorpresas.

    Este componente impredecible es uno de los principales factores que hacen que el fútbol sea una pasión de multitudes y que los hinchas de un equipo “chico” alienten a sus combinados ante cualquier gigante, abrigando siempre la esperanza de un nuevo “Maracanazo”. 


    NOTAS DE PIE DE PAGINA
    1 Ienzo Duarte es economista de la Universidad del Pacífico y se desempeña como Director de Proyectos del área de Finanzas Corporativas de APOYO Consultoría SAC. Guillermo Byrne es economista de la Universidad del Pacífico y Gerente de Marcas para los países del Cono Sur en British American Tobacco SAC.
    2 Para esta proyección se utilizó un modelo estadístico LOGIT, que permite calcular la probabilidad de la ocurrencia de un determinado evento. El evento definido a explicar fue la probabilidad de que un equipo gane un partido de Copa del Mundo dadas las diferencias relativas que obtiene frente a su rival en las variables seleccionadas. Mientras el resultado esté más cercano a 1, será más probable que gane el partido. Si es más cercano a 0, será más probable que no gane.
    3 A diferencia del modelo utilizado para Sudáfrica 2010, el valor del equipo ha vuelto a ser una sola variable y no está descompuesto entre el valor de la defensa, del mediocampo y del ataque. 


No hay comentarios.:

Publicar un comentario