NBA: Comienza el show

Señoras y señores, con todos ustedes, la mejor liga de baloncesto del mundo. La NBA arranca esta noche con 3 partidos y las casas de apuestas han tenido que rescatar del olvido sus sistemas y colocarlos a punto para la nueva temporada. Y esto me ha dado que pensar, ¿de donde sacarán los datos para las predicciones de los OVER/UNDER y los spread?, ¿serán fiables estos datos?.

Después de un largo verano, los equipos han cambiado sus plantillas, se han reforzado, los lesionados se han podido ir recuperando, los viejos son un año mayores y los nuevos se tienen que ir acoplando. Por todo esto, si yo fuese el encargado de colocar estas líneas, no estaría nada tranquilo. Cualquier sistema que se precie necesita datos fiables y cuanto más ceranos a la realidad mejor. Y ahora no estamos en esas condiciones.

El año pasado, comencé a preparar un modelo de predicción para la NBA con datos de la primera parte de la temporada. Además tomaba como base las predicciones de NBAStuffer sobre puntos anotados por partido. Los datos de la web parecían bastante fiables, así que he ido a ver que 'decían' sobre estos tres primeros partidos y me he llevado una sorpresa. No van a publicar datos de predicciones hasta primeros de Diciembre, por una razón completamente lógica: Necesitan datos reales para ajustar su modelo de predicción. Exactamente lo que yo creía.

Todo esto me lleva a enredar y estrujar datos, más aún. Y vamos a ver en las proxímas entradas, si las casas de apuestas colocan las líneas a ojímetro en estos primeros partidos de la temporada o tienen modelos lo suficientemente sofisticados y buenos para dar predicciones ajustadas en estas circunstancias. También veremos si los datos de la pretemporada son extrapolables a la temporada regular o no. Pero no adelantemos acontecimientos, pronto saldremos de dudas.

Yo, por mi parte, me uno a NBAStuffer y prefiero esperarme a tener datos antes de lanzarme con ningún sistema.

Suerte con vuestros picks. ¡QUE COMIENCE EL SHOW!

Resultados Picks Champions League

Ayer me resulto imposible conectarme, como dicen en la tele, por causas ajenas a mi voluntad, con lo que perdimos la oportunidad de seguir estudiando la estrategia de picks de la Champion League.

El resultado del martes no fue todo lo bueno que hubiese querído basicamente por dos motivos. El primero porque en los partidos que apostamos a la tarjeta como primer evento se dieron goles muy tempraneros, 4' para el Bayern (tarjeta a los 29') y 8' para el Steaua (tarjeta a los 19'). En ambos casos faltó un poquito de suerte, y el segundo fue la selección del stake por el criterio de kelly. Como había comentado en mismo post, 6 partidos es probable que no sean suficientes para estimar las tendencias de cada uno de los eventos y no contento con eso, no solo selecciono picks sino que tambíen asigno stakes tomando las probabilidades calculadas con los datos de los 6 partidos. De esta forma le estoy dando mucho peso a un dato que todavía no se si será correcto. Así que para el resto del reto asignaré un stake plano de 5 uds a cada pick.

Tras los picks del martes el reto queda de la siguiente forma:

Picks totales: 5
Aciertos: 2 (40%)
Uds apostadas: 28 uds.
Beneficio/ Pérdidas: -1.88 uds.

Con el stake plano no hubiesemos tenido pérdidas.

Para los siguientes picks del reto, me guardaré los datos de los 6 partidos que he tomado esta vez y así iremos incrementando la base de datos de partidos analizados, con la esperanza de mejorar en nuestras predicciones. A ver si hay más suerte la próxima vez.

Picks Liga Campeones

Esta semana vuelve la champions y entre la gran cantidad de apuestas que ofrecen las casas para estos partidos encontramo las apuestas a eventos en escala nominal como los que vimos en el ejemplo de hace un par de post. Así que a modo de repaso y para ver su funcionamiento vamos a utilizar el mismo criterio que empleamos allí para seleccionar posibles apuestas.

Recordemos los pasos:

1. Buscamos los datos de los 6 ultimos partidos para cada equipo que ofrece Bwin
2. Anotamos el primer evento de los ofrecidos para cada uno de los partidos
3. Hacemos un resumen de estos datos
4. Evaluamos la probabilidad de cada evento y calculamos su cuota teórica esperada
5. Comparamos la cuota esperada con la ofrecida por la casa y seleccionamos aquellas apuestas en las que la cuota esperada es menor que la ofrecida.

Con esto tenemos lo siguiente (he seleccionado estos partidos por cuestión de tiempo, no doy para más):



Y seleccionamos como picks:

  • Partido Bayern - Fiorentina: Tarjeta amarilla 9 uds @ 1.75
  • Partido Juve - R. Madrid: Gol 5 uds @ 2.75
  • Partido Manchester - Celtic: Sustitución 2 uds @ 13
  • Partido Fenerbahce - Arsenal: Gol 4.5 uds @ 2.75
  • Partido Steaua - Olympique: Tarjeta amarilla 7.5 @ 1.75

El stake lo he hecho siguiendo el criterio de kelly

Los sombreados en amarillo también cumplen ell criterio de ser mayor la cuota ofrecida que la teórica, pero el problema que tienen es que hay muy pocos partidos para confirmar esa discrepancia entre cuotas y los he dejado en 'cuarentena'.

El sistema teoricamente ha de funcionar a largo plazo, así que lo mantendremos para los partidos de la Champion League a ver como evoluciona. El único pero que tiene es que suponemos que los últimos 6 partidos de cada equipo son un buen estimador de las probabilidades de los eventos que estamos analizando, cosa que probablemente no sea del todo cierta. Así que recomiendo no seguir los picks hasta tener datos suficientes para comprobar si el sistema funciona o no.

Por otro lado, después de analizar los partidos de hoy, parece que la casa coloca las cuotas de manera genérica, con muy poca variación de un partido a otro. Esto puede jugar a nuestro favor porque hay partidos en los que las cuotas de un partido standard no se ajustan demasiado bien, como es el caso del partido Juventus - Real Madrid. Para el Madrid en 5 partidos de los 6 analizados, el primer evento ha sido un gol, y solo en 1 ha habido una tarjeta. Sin embargo en los partidos de la Fiorentina, en TODOS el primer evento ha sido una tarjeta.

Veremos lo que pasa hoy y mañana seguiremos.

La distribución de Poisson: Test de ajuste

En esta segunda entrega sobre el uso de la distribución de Poisson para predecir resultados de partidos de Futbol vamos a exponer como podemos comprobar si nuestros datos se ajustan a este tipo de distribución o no. Esto se conoce en estadística como test de bondad de ajuste o, en inglés, goodness of fit test.

Este proceso que vamos a explicar se puede utilizar con cualquier tipo de variable en escala nominal u ordinal y sirve para cualquier tipo de distribución.

El test está basado en la distribución chi cuadrado () y fue creado por uno de los más reputados estadísticos de los últimos tiempos, Karl Pearson. Su base, como en todos los test de hipótesis, consiste en establecer dos hipótesis, la hipótesis nula que considera que los datos que tenemos se ajustan a una determinada distribución y la hipótesis alternativa que es la negación de la nula, es decir, nuestros datos no se ajustan a la distribución. Dicho así no parece muy claro, pero es como se suele explicar la teoría. Traducido al cristiano sería algo así: Tenemos unos datos que 'parece' que siguen una determinada distribución, pero hay unas diferencias entre los datos que tenemos (observados) y los que deberían de ser (esperados). ¿Son esas diferencias lo suficientemente grandes para que sean provocadas por el azar?. La respuesta a esta pregunta la obtendremos con el test de bondad de ajuste.

Alguno a estas alturas se estará preguntando, ¿pero para que necesito hacer esto, si saco la media y lo meto en la fórmula de Poisson y obtengo el resultado que necesito?. La respuesta es sencilla, si nuestros datos no siguen la distribución de Poisson, todas las predicciones que hagamos utilizando las fórmulas para esta distribución serán erroneos y si nos basamos en ellos para apostar, tenemos muchas posibilidades de ver numeros rojos en nuestro bank a final de temporada.

Después de este pequeño paréntesis económico, vamos a ver como podemos realizar el test de bondad de ajuste a una distribución de Poisson en Excel.

Para ello tomaremos los datos del total de goles marcados por partido en la primera división durante la temporada 2007-2008. Pulsando sobre estadísticas tendremos el resumen de los datos que necesitamos. Estos serían nuestros valores 'Observados'. El siguiente paso que debemos hacer es calcular la media de los goles totales marcados por partido. Al tener los datos resumidos no podemos utilizar la función promedio() si no que debemos hacer una especie de 'desagrupamiento'. Esto, como siempre, se puede hacer de varias formas, yo voy a explicar dos de ellas, las más sencillas.

La primera es crear una nueva columna en la que multiplicaremos el número de goles por la cantidad de partidos (Columna C). Sumaremos todos esos productos y dividiremos este valor por el total de partidos jugados.

La otra es usar la formula sumaproducto(A2:A11;B2:B11) y nos ahorramos el paso de las multiplicaciones, que lo hace excel internamente. El resultado es el mismo para ambos casos, ¡Faltaria más!.

Una vez calculada la media, lo que hacemos es determinar los valores 'Esperados' según una distribución de Poisson con esa media. Esto lo calculamos multiplicando la probabilidad de Poisson para cada resultado, por el total de partidos.

La última columna la utilizaremos para calcular el estádistico con la siguiente fórmula:



Esta columna es importante, porque nos da información de donde se producen las mayores discrepancias. Cuanto mayor sea el valor que obtengamos, mayor es la discrepancia entre el valor observado y el esperado. Más alejado está ese punto de su lugar teórico predicho por la curva de Poisson y más probabilidad tenemos de que el resultado del test nos diga que nuestros datos no se ajustan bien a la curva.

Ya solo nos queda sumar todos estos valores y 'buscar' dentro de la función y comprobar si las diferencias que hemos encontrado son lo suficientemente grandes o no para rechazar o no rechazar la hipótesis nula. Ya veis que he dicho rechazar o no rechazar, en lugar de rechazar o aceptar, porque NUNCA se acepta la hipótesis nula. Este es un error muy común en la interpretación de los resultados de test de este tipo. Pero dejaremos esto para un futuro.

La función tiene dos parámetros, el primero de ellos es el valor de nuestra suma, y el segundo son los grados de libertad para los que vamos a calcular este estadístico.

Los grados de libertad se obtienen con la siguiente fórmula: GL = Nc - Np - 1

Siendo Nc = al número de categorías que tenemos y Np = número de parámetros que estamos estimando. Para nuestro caso tenemos 10 categorías y vamos a estimar un parámetro solo que es la media: GL = 10 - 1 - 1 = 8

El valor que nos devuelve es lo que en estadística se llama P-Value, y corresponde a la probabilidad de equivocarnos si rechazamos la hipótesis nula. Como norma general se suele tomar como valores de corte el 5% ó el 1% dependiendo de lo restrictivos que seamos. Este valor lo debemos de tomar ANTES de la realización del test y será nuestro límite para rechazar o no rechazar la hipótesis nula.

En el ejemplo tenemos un P-Value de 0.54 con lo que debemos decir que las diferencias que hemos encontrados no son lo suficientemente grandes como para decir que nuestros datos no siguen una distribución de Poisson. Como esto es un poco engorroso, hay mucha gente, que viendo este P-Value, adopta una postura más comprometida y llega a decir que nuestros datos siguen una distribución de Poisson. Pero como ya he explicado esto no es del todo cierto, puede que siga una distribución de Poisson o puede que se acerquen más a otro tipo de distribución. El aspecto final de la hoja sería el siguiente:



Como no quiero extenderme más, solo hago una puntualización final. Si os fijais tenemos dos categorías con menos de 5 datos (8 y 9 goles), siendo estrictos deberíamos haber agrupado estas dos categorías y crear una nueva como más de 6 goles, agrupando en ella las categorias 7, 8 y 9 goles. El resultado del test varía poco en este caso, así que para no complicar más la explicación lo he dejado así. Si alguno está interesado en como se haría el test en este caso que lo diga y lo explicaremos.

Un saludo y hasta la próxima

EDITO 22/07/10: Al final he encontrado una forma de añadir hojas de cálculo al blog y he creado una mini hoja Excel para calcular los resultados de un partido de Futbol a partir de la media de goles marcados por cada equipo. La hoja la teneís aqui.

Resumenes gráficos de variables en escala nominal

Las dos formas más frecuentes de resumir gráficamente variables de escala nominal son los diagramas de barras y los diagramas de sectores. Lo que se representa en ambos casos es la cantidad de eventos que se han dado en cada una de las categorías. Es importante señalar, que el orden en el que se presentan las categorías no tiene ningún significado.

En apuestas deportivas no es fácil encontrar casas que nos ofrezcan apuestas relacionados con variables en escala nominal. Uno de los pocos ejemplos que podemos encontrar son apuestas al primer evento que se puede producir en un partido de futbol. Bwin es una de las pocas casa en las que se pueden encontrar apuestas de este tipo y hace un par de semanas ofrecían lo siguiente para el partido entre el Cluj y el Chelsea (lo he seleccionado en honor a mi compañero Baldani que es un apasionado de la liga Rumana):

Primer evento en la primera parte

1. Tarjeta @ 1.7
2. Gol @2.65
3. Sustitución @15
4. Medio tiempo @8.5

Este es un claro ejemplo de variables en escala nominal. Se ofrecen 4 categorías diferentes con sus cuotas entre las cuales no existe ningún tipo de relación de orden, entendiendo por orden, el que una categoría sea mayor a otra. Evidentemente no se puede decir que tarjeta sea mayor que sustitución o que gol sea menor que medio tiempo.

Para realizar nuestro resumen utilizaremos los datos que ofrecía la propia Bwin. Allí podíamos encontrar los resultados de los dos equipos en sus seis ultimos encuentros y además entrando en cada uno de los partidos podíamos ver los detalles del mismo. Esta será nuestra fuente de datos para este ejemplo.

Iremos partido por partido apuntando el primer evento hasta obtener una columna con 12 datos (6 datos por cada equipo)

Una vez tenemos esto, el siguiente paso es construir un histograma y esto se puede hacer de varias formas en Excel. La que más utilizo, porque creo que es la más rápida y flexible es la tabla dinámica, aunque también se pueden usar otras como los subtotales, la función histograma implementada en el complemento de análisis de datos, la función de excel frecuencia() o la más simple contar.si(). Es esta última la que vamos a explicar en este ejemplo.

El resultado final que vamos a obtener es una hoja como esta:

En la que en la columna D tenemos los datos de los partidos, que hemos ido sacando de Bwin y en las columnas H-I-J-K tenemos los resultados.

Así, partiendo de la tabla de datos, vamos a crear la siguiente:

En la primera columna colocaremos los cuatro tipos de eventos. IMPORTANTE, la función contar.si() no distingue entre mayúsculas y minúsculas, pero si es sensible a los espacios entre palabras o al final de las mismas. Así que, lo que recomiendo, es copiar y pegar los identificadores de cada una de las categorías para no equivocarnos al teclear.

En el resto de la tabla introduciremos la siguientes fórmulas. Los $ supongo que sabeís para que sirven, y se colocan SOLO EN WINDOWS pulsando [F4] repetidas veces, para fijar la celda, la columna o la fila. Volveremos sobre esto en otras entradas.


La columna de frecuencias la obtendremos con la función contar.si() de Excel, que tiene dos argumentos. El primero es el rango donde se encuentran nuestros datos, y el segundo es el criterio, lo que queremos que Excel cuente. Para nuestro ejemplo el rango de datos siempre es el mismo y lo fijamos con los símbolos de $ para que no varíe al arrastrar la función y el segundo es el nombre de la categoría. Con esto conseguiremos que Excel nos cuente la cantidad de veces que aparece el nombre de la categoría en el rango de datos que le hemos dado. A esto habitualmente se le llama frecuencia.

En la siguiente columna hemos calculado un cociente entre la frecuencia de cada categoría y el total de elementos que tenemos. Esto representa la cantidad de elementos que tenemos de cada categoría con respecto al total. A esto se le llama frecuencia relativa y se suele representar en porcentajes, porque también coincide con la probabilidad de que se de un resultado de esa categoría.

Y con esto tenemos ya nuestro resumen gráfico en forma de histograma


Que podríamos representar también en diagrama de sectores:


Como podeis ver en este caso los % coinciden con las frecuencias relativas que hemos calculado en la tabla.

El último paso que nos quedaría sería el de utilizar estos datos para evaluar las cuotas que nos ofrecía Bwin. Si considerasemos como representativos estos seis partidos de cada equipo para evaluar el partido en cuestión, las cuotas que Bwin debería haber ofrecido serían las mostradas en la última columna de la tabla. Para su cálculo simplemente divdiremos 1 por la frecuencia relativa. Comparando estas cuotas teóricas con las ofrecidas por Bwin vemos que existe una discrepancia en la de Sustitución, que Bwin la ofrecía a 15, mientras que en nuestro cálculo habíamos obtenido 6. Esta sería para nosotros una apuesta de valor (value bet) y sería la que deberíamos elegir.

Antes de acabar puntualicemos varias cosas, por si las moscas.

1. Los datos de partida son inventados, pero las cuotas eran las reales
2. No es muy conveniente utilizar solo 6 partidos como un estimador razonable. Cuando se usan tablas de contingencia se habla de que hay que tener como mínimo 5 datos por cada casilla. En nuestro caso sería conveniente tener al menos 5 datos para cada una de las categorías, lo que solo se cumple para una de ellas.
3. Es muy probable que la value bet que obtengamos no sea la que tiene una probabilidad más alta de salir, lo que quiere decir que es probable que no salga. Pero, pero, pero, si seguimos utilizando este método y nuestros análisis son correctos, la frecuencia con la que se irán dando los aciertos hará que se compensen las pérdidas a largo plazo.

Creo que ha sido un pequeño ladrillo para comenzar la semana. Espero que no se haya dormido nadie. Hasta otra

Las dos caras de la verdad

En relación a la entrada anterior, haremos un comentario sobre la preparación para apostar. Desde luego que no tenemos que hacer una gran marca en el test de Cooper, ni lograr hacer más de 100 dominadas para afrontar el cierre de una apuesta, pero sí que debemos partir de un estado físico y mental mínimamente adecuado para este hecho.

Cuando nos enfrentamos al cierre de una apuesta, suceso que habitualmente hacemos con total naturalidad en la mayor parte de los casos, debemos ser conscientes de que la calma y la frialdad han de anteponerse a cualquier otra sensación del cuerpo. Con la misma predisposición deberemos proceder a la lectura de los infinitos pronósticos que se ven publicado en los diferentes foros, blogs y demás espacios de la red.

Si leyésemos un post de este tipo ¿cuál sería nuestra reacción?

F.C.Barcelona-Atlético de Madrid: el segundo partido más esperado del año para los rojiblancos tras el duelo con su eterno y vecino rival el Real Madrid. Este partido enfrenta al quinto y séptimo clasificados en la liga con un Atlético más que motivado para la victoria final. Comandados por su líder el Kun y reforzados sus planteamientos tras el partido de la Champions League, competición en la que marchan co-líderes empatados a puntos con el todopoderoso Liverpool, llegan a un Camp Nou que esperará a los blaugranas con excepticismo.

Tras la agónica remontada de los culés en campo del débil Shaktar Donest, propiciado por un error colegial del portero, los locales tendrás más dudas que certezas a la hora de plantear su fútbol. Con un Henry que ha pasado de ser el 9 indiscutible de Guardiola a ser el blanco de todas las críticas, un Etoo tan voluntarioso como poco efectivo en su mejor faceta, el gol, y un Messi que parece ser un carro de fuegos de artificio, deberán doblegar a la tercera mejor defensa del campeonato. Esto, sumado a que en los últimos 8 enfrentamientos directos del Barcelona-Atlético sólamente 2 cayeron del lado catalán, podemos arriesgar un stake moderado por la victoria rojiblanca en el colosal estadio del Barcelona a la descabellada cuota de 6,50.

Si por contra leemos para el partido F.C. Barcelona-Atlético de Madrid leemos el siguiente post a favor de la victoria local, ¿cuál sería nuestra inercia?:

F.C.Barcelona-Atlético de Madrid: clásico entre los clásicos en el Camp Nou. El F.C. Barcelona recuperado de las dudas que asaltaron tras la derrota en "Los Pajaritos" ha comenzado su despegue a fuerza de remontadas. Cuando todo parecía en contra de la reacción de los de Pep en el Olímpico de Monjuit, Henry sacó su mejor cara y logró cazar un rechace que supuso el inicio del despegue culé. Un partido destinado al empate, fue salvado por el camerunés Etoo con una acción que terminó en un más que discutido penalty transformado por Messi, el mejor jugador del mundo en estos momentos. Y es que el Barcelona tiene demasiados recursos ofensivos, con Xavi (en la versión más goleadora de su historia), Etoo, Henry, Messi e incluso Gudhjonsen desde el banquillo hacen muy difícil que el Barcelona termine un partido sin hacer gol.

Por si este baño de moral fuese poco, volvió a zambullirse en tan cálidas aguas durante su enfrentamiento en la máxima competición continental. Se perfiló con una nueva remontada como sólido líder de su grupo y ofreciendo un final de partido que nos indican lo fuerte y mentalizado que está el conjunto de Guardiola para exprimir los partidos hasta obtener la victoria.

Por el lado colchonero, muchas serán las bajas que presenten el domingo. Aguirre no podrá contar con la presencia ni de Maniche, ni Simao, Seitaridis, Pablo Ibáñez y Forlán, por lo que ha recurrido a tres hombres del filial, Álvaro Domínguez, Keko y Joshua para completar la convocatoria. Si a esto le añadimos que de los últimos tres enfrentamientos entre los dos, el Barcelona obtuvo la victoria en 2 de ellos y sólo perdió a domicilio el año pasado, que ha marcado un total de 11 goles en esos tres partidos y recibido 4, podremos confiar en la segura victoria blaugrana.

Esto nos indica que además de dejar a un lado nuestros colores futbolísticos o deportivos, deberemos medir muy bien los post, que normalmente nos muestran los datos que más justifican el pronóstico del autor, dejando a veces otros que bajarían algunos puntos la confianza en los mismos.

Precaución amigo apostador. Toda apuesta suele tener dos caras como la película de Richard Gere y Eduard Norton que desde aquí recomiendo ver.

¿Por qué apostamos?

Existe una pregunta que todo apostante debería hacerse alguna vez: ¿Por qué apostamos?. O más concretamente ¿por qué he seleccionado este evento para apostar?. En la mayoría de los casos nos encontraríamos con respuestas del tipo, 'porque creo que va a salir', 'porque me da a mi que voy a acertar', 'porque tengo el presentimiento' o cosas similares. No parecen estos razonamientos demasiado lógicos ni consistentes, como para concluir que podemos seguir en esto de las apuestas con una cierta garantía de exito.

Si algún bookie nos ofreciese la posibilidad de apostar a que el gordo de la lotería nacional va a ser un número par o impar a una cuota de 1,95, es bastante probable que a ninguno de nosotros nos llamase demasiado la atención. Pero que pasaría si viesemos algo así:

  1. El gordo de la lotería nacional va a ser un número par @ 2,3
  2. El gordo de la lotería nacional va a ser un número impar @1,8

¿Que es lo que haríamos en este caso?.

Supongo que una gran mayoría pondría su dinero en la selección 1, pensando que tenemos una cuota de 2,3 en un evento con el 50% de probabilidad, un evento cara o cruz, básicamente. Este tipo de razonamiento es de lo más lógico ante este tipo de apuestas y debería ser el que utilizasemos para seleccionar cualquiera de nuestras apuestas deportivas. Deberíamos buscar cuotas con valor ('value bets'), cuotas cuya probabilidad asociada sea menor a la probabilidad real de que el resultado se de.

Una cuota de 2,3 correspondería, despreciando la comisión del bookie, a una probabilidad asociada de 1 / 2,3 = 43,48%. Esto es más de un 6.5% menor que la probabilidad real de que se de este resultado. Si tuviesemos la suerte de encontrar eventos de este tipo, el beneficio final esperado de nuestras apuestas sería:

VE = 0,5 * (2,3 -1) - 0,5 * 1 = 0,15

Es decir a largo plazo estaríamos ganando un 15% por unidad apostada.

El problema de esta estrategia, que repito debería ser la que nos guiase en esto de las apuestas, radica en la estimación de la probabilidad real de que el resultado se de. Teoricamente el bookie tiene más medios, tanto humanos como materiales, para estimar esta probabilidad mejor que nosotros. Lo que sucede es que hay veces que bien el bookie, bien nosotros (la mayor parte de las veces), fallamos en la estimación. Y a esto es a lo que quería llegar, muchas veces la estimación de la probabilidad no es tan sencilla como parece a primera vista.

En la pelicula 21 BlackJack, Kevin Spacey, que interpreta a un profesor de ecuaciones no lineales en el mítico instituto MIT, propone un problema a sus alumnos durante una de sus clases. El problema es una variante del famoso problema de Monty Hall, y decia algo así (lo cito de memoria):

Tengo tres cajas tapadas, en una de las cuales hay un cheque de 1000$ y te doy a elegir una de ellas.

Una vez has hecho tu elección yo, que se en que caja está el cheque, te abro una de las dos cajas que no has elegido y que no contiene el cheque. Si llegado a este momento te diese a elegir entre quedarte con tu caja o cambiarla por la otra que yo tengo ¿que harías?.

Una vision rápida y errónea del problema, podría ser.

En un primer momento tengo 3 cajas, con lo que la probabilidad de acertar al seleccionar la caja es de 1/3

Cuando abre la caja mala, me quedo con dos cajas, con lo que la probabilidad de acertar ahora es de 1/2, y es la misma para ambas cajas. Con lo que me da lo mismo cambiar que quedarme con la caja que había elegido en un principio. Meeeeeecccc, ERROR!!!

Demos un paso atrás y volvamos al principio.

Tenemos tres cajas y elegimos una. Tenemos 1/3 de posibilidades de haber elegido la caja buena y el profesor tiene un 2/3 de probabilidad de haberse quedado con la caja con el cheque. Si al abrir una caja que no contiene el cheque, me dan la posibilidad de pasarme al conjunto que tenía 2/3 de posibilidades de tener la caja con el cheque, así que debo cambiar siempre. Si hago esto, solo perderé en los casos en los que haya tenido la suerte de elgir la caja con el cheque en la primera elección, que será el 33% de las veces, mientras que ganaré el cheque en el 66% de las veces restante. Así, como dicen en la película, cambiaremos y le agradeceremos el favor de darnos un 33% más de probabilidad de acertar.

Casos con apariencia sencilla como este, inducen muchas veces al error en las estimaciones de las probabilidades y, por desgracia para nosotros, en las apuestas deportivas los casos son bastante más complicados, con lo que la probabilidad de equivocarsenos en las estimaciones son mucho mayores. En las diferentes entradas del blog relativas a la estadistica lo que vamos a intentar es ofrecer las pautas y herramientas necesarias para que nuestras estimaciones sean lo más precisas posibles. Hasta entonces os dejo con dos tonterías para que os divirtaís:

  1. ¿Cual es la probabilidad de sacar una cara en 4 lanzamientos de una moneda?
  2. ¿Realmente deberíamos elegir la opción par en la apuesta de la lotería nacional?

Estaría bien oir vuestros comentarios sobre esto, aunque fuese en plan anónimo. No voy a examinar ni calificar ninguno de ellos, simplemente nos servirán para dabatir sobre las soluciones. Un saludo a todos.