Manejo de Datos en Excel

Antes de continuar con nuevas entradas, vamos a hacer un recorrido por el Excel para conocer algunas de sus funciones que nos van a ser muy útiles en el manejo de datos. La mayoría de los ejemplos que colocaremos en el blog se harán con este programa, y solo en caso de extrema necesidad utilizaremos otros paquetes estadísticos. Para seguir estos post será necesario tener un conocimiento mínimo de Excel ya que voy a saltarme los pasos de principiante y me centraré en utilidades un poco más avanzadas y menos conocidas de este programa. Todo lo que comente, vale para las versiones 2003 y 2007 de excel.

  • Introducir datos en varias celdas a la vez:
Esto, como la mayoría de cosas en excel se puede hacer de varias formas. Podríamos hacerlo introduciendo el dato en una celda y posteriormente, copiando y pegando en el resto, pero hay un atajo bastante útil que nos permite hacerlo en una sola operación.
  1. Seleccionamos las casillas donde queremos introducir los datos.
  2. Escribimos en cualquiera de ellas el dato que queremos que aparezca en todas
  3. Si pulsamos [INTRO] (colocaré en este formato las teclas) el dato se coloca en una casilla, pero pulsando [CTRL]+[INTRO] se introducirá en todas las casillas seleccionadas a la vez.

  • Introducir datos en varias celdas, de diferentes hojas a la vez:
También se pueden introducir datos en una o varias celdas de diferentes hojas a la vez. Para ello lo único que deberemos hacer es seleccionar varias hojas, con [CTRL] o [SHIFT] y pulsando sobre la pestaña de las hojas, para seleccionarlas y a partir de aquí todo lo que hagamos en las celdas automáticamente quedará copiado en las hojas seleccionadas.

  • Introducir la Fecha Actual y la Hora Actual:
Las funciones Ahora(), y Hoy(), nos devuelven información sobre el dia y la hora actual, y se actualizan cada vez que recalculamos la hoja (para recalcular la hoja manualmente se puede hacer pulsando [F9]). Si lo que necesitamos es introducir la fecha de hoy, en lugar de hacerlo a mano tecleando el dia mes y año, podemos hacerlo automáticamente con [CTRL] + [SHIFT]+[; ] para la hora utilizaremos [CTRL] + [SHIFT]+[: ]

  • Extender Listas, Fórmulas y Números:
Excel tiene predeterminadas listas de meses del año y dias de la semana, con lo que para escribir los meses de año lo único que debemos hacer es colocarnos en una celda, escribir ENE (o ENERO) y arrastrar para que se vayan rellenando las celdas con los meses consecutivamente.

Las listas de los meses y días de la semana vienen predefinidas en el programa, pero se pueden modificar e incluso añadir más listas personalizadas. Para ello debemos ir a Herramientas -> Opciones -> Listas Personalizadas en Excel 2003, en el 2007 vamos a Opciones de Excel -> Listas Personalizadas.

Para arrastrar más rápidamente, podemos hacer
DOBLE CLICK en el cuadradito de arrastrar. Esto nos rellenará todas las celdas hacia abajo hasta completar una columna igual a la que se encuentra a su lado.

Si arrastramos una fecha o una hora, nos rellenará las casillas incrementando en un dia o en una hora. Esta función es realmente interesante porque podemos variar a nuestro gusto el incremento. Para ello lo que hacemos es rellenar dos casillas adyacentes con los números, las fechas o las horas que queramos y separadas por el incremento que necesitemos. Si seleccionamos las dos casillas y arrastramos conseguiremos una lista con el incremento que había entre las dos primeras celdas.

Por último pulsando en el cuadrado naranja podemos seleccionar el tipo de relleno que queríamos hacer al arrastrar. Si lo que queríamos era copiar solo los datos pulsaremos en copiar en lugar de rellenar la serie.

Con esto acabamos la entrada de hoy, seguiremos con más información sobre funciones de excel en las siguientes entradas, en las que seguiremos también con el curso básico de estadística. Hasta entonces sed felices.

Análisis Exploratorio de Datos (EDA)

El manejo de grandes cantidades de datos en bruto suele ser complicado y engorroso. A nuestra vista le resulta mucho más sencillo extraer conclusiones de gráficos que de datos colocadoe en forma de tabla. En un gráfico se puede comprobar más rápidamente como se agrupan los datos, si aparecen tendencias, ciclos, o si existen posibles errores. Vamos a ver todo esto más claro con el siguiente ejemplo.

Tomaremos los datos de temperaturas medias de un municipio de La Coruña que aparecen en la siguiente web: http://www.tutiempo.net/clima/A_Coruna_Alvedro/2007/80020.htm

En los meses de Enero, Marzo y Mayo las temperaturas medias por día han sido las siguientes:


En la tabla es difícil apreciar tendencias o puntos discrepantes, sin embargo si representamos gráficamente estos mismos datos la cosa cambia.


Con el gráfico se aprecia que el mes de enero ha tenido mucha más variabilidad que el resto, el mes de marzo ha sufrido un descenso continuado de las temperaturas, mientras que en mayo ha sido el mes mas caluroso y bastante estable.

Es evidente que el gráfico es mucho más fácil de interpretar que la tabla llena de números, pero estos tienen sus restricciones también. Si en lugar de representar 100 datos, como hemos hecho, hubiesemos tenido que representar un conjunto mucho mayor, el gráfico tampoco nos daría demasiada información ya que nos aparecería una nube de puntos tan densa que no apreciaríamos nada. Para condensar toda esa información y mostrarla de manera mucho más fácil de interpretar se utilizan tanto los resúmenes gráficos como los numéricos.

Durante los siguientes posts vamos a abordar ambos tipos de resúmenes, que se encuentran enmarcados dentro de lo que comunmente se llama Analisis Exploratorio de Datos (EDA en Inglés). Comenzaremos con los gráficos, para posteriormente comentar los resumenes numéricos, e intentaremos en todos ellos utilizar ejemplos de datos obtenidos de competiciones deportivas.

Resultados Picks US Open

Primera Semifinal: Federer - Djokovic


En esta primera las cosas fueron bastante bien, de los 7 eventos posibles, hubo 5 aciertos y 2 fallos. Entre los aciertos está el pick del under en las dobles faltas totales.


Segunda Semifinal: Nadal - Murray


En la segunda las cosas se torcieron un poco debido probablemente a la sorpresa con la victoria de Murray. Los dos primeros sets gano sus servicios muy fácil lo que hizo que tomase mucha confianza en el servicio y que bajase el nivel de dobles faltas. Esto nos hizo fallar el pick, de todas formas de los 7 eventos hubiesemos acertado 4 y fallado 3.

En total 9 aciertos y 5 fallos que da un porcentaje de aciertos del 64%, que está bastante bien teniendo en cuenta que las líneas propuestas por los bookies estaban bastante bien ajustadas a las previsiones hechas. Seguiremos analizando con este sistema otros torneos de tenis en el futuro a ver como responde.

Apuestas raras en tenis V2.0

Volvemos con las semifinales del cuarto gran slam de la temporada y vamos a repasar, de manera similar a lo que hicimos para wimbledon, como han cuadrado los bookies sus líneas de apuestas.

Primera Semifinal: Federer - Djokovic

El total de juegos estimado por los bookies para este partido lo han fijado en 41.5.
  • ACES:

Las estimaciones del bookie para este partido (no menciono ningún bookie para no herir sensibilidades) son de 26,5 Aces totales, handicap de 2,5, 14,5 aces para Federer y 12,5 para Djokovic. Como podemos ver han afinado bastante más que la primera vez y no se ve ninguna discrepancia grande así que no seleccionaremos nada.
  • DOBLES FALTAS

Para este apartado tenemos, 7,5 de total de dobles faltas, 3,5 para Federer y 3,5 para Djokovic. Parece que han corregido un poco a la baja y la mayor discrepancia que aparece es en el total de dobles faltas por partido, que iremos con el under 7.5

Segunda Semifinal: Nadal - Murray

El total de juegos estimado por los bookies para este partido lo han fijado en 38.5.
  • ACES:

Las estimaciones para este partido son de 14,5 Aces totales, handicap de 3,5, 5,5 aces para Nadal y 8,5 para Murray. La línea de Murray la han bajado un poco debido probablemente a que Nadal es un gran restador y no resulta sencillo hacerle un saque directo. Como no hay discrepancias demasiado claras dejaremos este apartado sin ningún pick.
  • DOBLES FALTAS

Las estimaciones en cuanto a dobles faltas son de 6,5 para el total, 2,5 para Nadal y 4,5 para Murray. Además las cuotas indican una tendencia al under para los tres casos. Aquí creo que si que hay cuotas con value para los picks. Para Nadal la estimación es bastante ajustada, pero para Murray han ido un poco bajo, cuando, bajo mi punto de vista, arriesgará más en el saque buscando que Nadal no le presione con el resto. Así que, apoyandonos en este argumento, iremos con Over 6,5 para el total.

Esperemos tener suerte.