Análisis final de la Champions League 2016

Este ejercicio comenzó de forma lúdica para ver cómo podíamos aplicar algunos algoritmos "R" simples para predecir los resultados de la final de la Champions League de este sábado.

Algunos datos básicos se acumularon primero en tablas de Excel sobre el rendimiento de los jugadores y los resultados históricos del equipo. Inicialmente, los datos estaban bastante sucios con equipos duplicados debido a las distinciones en los nombres y al conjunto de datos relativamente pequeño considerando la tarea en cuestión. Después de un tiempo, los datos se tratan y es mucho más fácil trabajar con ellos, pero se puede extraer información útil con datos crudos como se puede ver en las siguientes imágenes. Estos simplemente representan la relación entre el número de faltas y el número de goles que los jugadores individuales habían acumulado en el campeonato hasta el momento.

Cada balón externo representa a un jugador donde el tamaño del balón representa el número de goles marcados y el grosor de la barra que conecta al jugador con el equipo representa el número de faltas que ese jugador había acumulado.

El siguiente diagrama le muestra un poco más de detalle:

Los círculos grandes representan más goles y el grosor de las bielas representa el número de faltas cometidas por esos jugadores y, por lo tanto, una lectura de handicap relativo.

La comparación de la actividad de los fanáticos de Facebook puede ayudar a modelar el estado de ánimo probable de los fanáticos el día del partido y, por lo tanto, podría proporcionar información sobre los patrones de asistencia.

El siguiente diagrama muestra una interesante agrupación de equipos ganadores según los niveles de asistencia en años consecutivos. También muestra una línea de tendencia, aunque la dinámica del equipo tiende a mantener estas tendencias bastante cortas.

Esta visualización se logró con muy pocos datos en un algoritmo kMeansClustering ejecutado a través de R en una expresión métrica de Microstrategy.

Muchas formas de visualizar los Goles y faltas de cada jugador esta temporada.

Las siguientes visualizaciones están diseñadas para definir rápidamente la relación entre faltas y goles y le da una idea del delicado equilibrio entre las dos variables.

Luego, podemos agregar un algoritmo de línea de tendencia listo para usar para proporcionar más información sobre las tendencias de faltas / goles.

Esto nos permite examinar escenarios de "qué pasaría si" filtrando a jugadores como Ronaldo para ver cómo esto afecta la capacidad de los equipos para anotar.

El gráfico a continuación muestra el promedio de goles de cada equipo en lo que va de temporada en relación con las faltas acumuladas para lograr estos objetivos.

Notarás que la capacidad de gol promedio del Atlético es de 0.65 y el Real Madrid de 1.18, por lo tanto, tiene una ventaja hasta que eliminemos a Ronaldo por lesión o juego sucio y luego observemos que la línea promedio llega a 0.48 !!

Las visualizaciones anteriores brindan excelentes conocimientos a partir de datos relativamente limitados, pero aún llevan la exploración a otro nivel al introducir análisis avanzados de R en la mezcla; las líneas de tendencia anteriores usan R de la siguiente manera:

Atlético

Real Madrid

El primer paso es asegurarse de que R esté completamente integrado con nuestra instalación de Microstrategy como se discutió en un blog anterior.

(ver Análisis predictivo con "R" parte 1).

Como puede ver en la siguiente captura de pantalla, la sintaxis es crítica y no perdona en la consola R:

Análisis de supervivencia mediante regresión de Cox

"En una línea de tiempo lo suficientemente larga, la tasa de supervivencia de todo cae a cero" –Tyler Durden

En el dominio del análisis de supervivencia, el modelo de riesgos proporcionales de Cox es una técnica comúnmente utilizada que calcula el riesgo relativo de que ocurra un evento en función de cualquier número de covariables. Se llama Análisis de supervivencia porque el "evento" generalmente representa el final de algo, como la falla de un componente, la pérdida de un cliente o cualquier otro tipo de "fin de vida". El modelo de regresión de Cox cuantifica el efecto que tiene cada variable independiente sobre la tasa de riesgo, o la probabilidad de que un evento, asumiendo que aún no ha ocurrido, ocurra en cualquier momento. Para cada registro, el modelo genera el índice de riesgo, que representa el índice de riesgo para ese cliente dividido por el índice de riesgo para el cliente promedio.

Este R Script tiene dos modos funcionales:
• El entrenamiento crea un modelo y lo conserva en un archivo .Rdata mientras devuelve sus predicciones.
• La puntuación utiliza el modelo creado durante el entrenamiento para hacer predicciones sobre un nuevo conjunto de datos.

Basándonos en la teoría anterior, podemos experimentar prediciendo goles o faltas futuros de jugadores específicos o como agregados en equipos.

Expresiones métricas:

Las expresiones métricas que se muestran aquí asumen que el archivo SurvivalAnalysis.R se ha descargado al servidor. Si utiliza el enfoque basado en URL en el que se accede al archivo SurvivalAnalysis.R directamente a través de una URL, consulte el R Script Shelf [2].

1) Riesgo: para cada registro, devuelve el riesgo de que ocurra un evento en relación con el promedio. Por ejemplo, un valor del 120% significa que un evento tiene un 20% más de probabilidad de ocurrir en este registro que un registro que tenía los valores promedio para cada variable independiente.

Si usa R Integration Pack V 2.0 con parámetros con nombre:

Para el entrenamiento, use esta expresión métrica:
RScript <_RScriptFile = »Survival.R», _InputNames = »Time, Status, Vars», _Params = »TrainMode = TRUE, FileName =’ Survival '»> (Time, Status, Vars)

Para puntuar, use esta expresión métrica:
RScript <_RScriptFile = »Survival.R», _InputNames = »Time, Status, Vars», _Params = »TrainMode = FALSE, FileName =’ Survival '»> (Time, Status, Vars)

Despliegue

Si tiene problemas para implementar la extensión de la consola R, asegúrese de haber cargado primero la biblioteca de Microstrategy:

Entonces está listo para implementar con el comando anterior.

Ok, volvamos a las predicciones !!

Hasta ahora, todavía estamos trabajando con datos dudosos, pero algunos anotadores iniciales más probables comienzan a surgir utilizando un algoritmo de agrupación conocido como k-Medoids:

El agrupamiento de k-Medoids es una alternativa útil al popular algoritmo de agrupamiento de k-Means. Al igual que las k-medias, agrupa elementos en k grupos distintos para que los elementos dentro del mismo grupo sean más similares entre sí que los elementos dentro de diferentes grupos.

El agrupamiento de k-Medoids tiene la ventaja sobre k-Means en que elige un elemento prototípico para cada grupo, en lugar de calcular una media teórica para cada grupo.La agrupación de k-Medoids es particularmente útil cuando existe la necesidad de comprender la naturaleza de cada agrupación identificando su miembro prototípico. Tenga en cuenta las siguientes prácticas recomendadas para el análisis de clústeres:

Luego limpié los datos considerablemente antes de continuar experimentando con más algoritmos R para proporcionar combustible más limpio a la máquina. Luego se compiló otra visualización con el nuevo conjunto de datos y una nueva expresión métrica de K-Mediods:

Esto reveló algunas ideas bastante interesantes que sospecho que solo los fanáticos del fútbol comprenderán. Se lo dejo a usted, ya que no tengo conocimientos previos en fútbol y, por lo tanto, estoy completamente libre de emociones relacionadas con los resultados. Sin embargo, entiendo que algunos de los personajes anteriores probablemente no sean anotadores.

La siguiente visualización surgió por casualidad y parece identificar los juegos de campeones más populares hasta el momento:

Y nuevamente usando algunas adaptaciones simples de R, los contendientes más probables a la final:

Ahora, con el nuevo conjunto de datos una vez más para precisar a los jugadores que llevarán su equipo al título, el Real Madrid no está mostrando una fuerza excesiva en relación con el Atlético y, de hecho, diría que Ronaldo es clave para apuntalar su ventaja con una gran bolsa de goles!!

Esta decisiva visualización de K-Medoid sí apunta a un Real Madrid ganador solo por la gran cantidad de Goles concedidos.

Este diagrama final es un intento de arrojar algo de luz sobre quién marcará esos fatídicos goles.

Bueno ... Ronaldo no fue una sorpresa debo decir pero ¿¡¿Toni Kroos?!?

Y ATENCION !!! … EL GANADOR ES…

2-1 al Real Madrid

(a menos que Ronaldo sea expulsado o se lesione ...)

Escrito por Stephane Rodicq

Noticias relacionadas

15-04-2024

Innovación al descubierto: Explora el laboratorio de última generación de K-LAGAN | Visita virtual

03-04-2024

Uniendo Fuerzas: Innovación y Usabilidad en el Diseño UX/UI

27-03-2024

K-LAGAN participa en JFTL, el Epicentro Europeo de Software Test

29-02-2024

Ingeniería de requisitos: Construye el alcance de proyecto con K-LAGAN Engineering

21-02-2024

K-LAGAN Engineering, presente en FIMA 2024