Saturday, November 5, 2011

Análisis de Varianza - ANOVA

En el mundo de los negocios enfrentamos constantemente el reto de tomar decisiones.  Sin embargo, es muy fácil tomar decisiones cuando tenemos en nuestro poder todos los elementos de juicio para tomar deciones acertadas.  En el mundo real de los negocios podemos tener un conjunto de datos con información valiosa sobre un fenómeno específico y aún así no saber qué hacer con él.  Esta incertidumbre con el uso de la información es lo que usualmente lleva a las diferentes unidades de la Organización a no llegar a un consenso y, por consiguiente, se complica el proceso de la toma de decisiones.  De acuerdo al Profesor Anjan Thakor, Director del Centro de Investigaciones de Finanzas y Contabilidad de la Universidad de Washington en St. Louis, una gran parte de la toma de decisiones gerenciales tiene como propósito reducir la incidencia en desacuerdos.  El siguiente video muestra la entrevista al Prof. Thakor sobre su investigación.


Uno de los escenarios a los que comúnmente se enfrentan los gerentes es comprar tres grupos o más.  Por ejemplo, un Gerente de Recursos Humanos puede estar interesado en comparar los salarios de los empleados clasificados en un mismo puesto en tres unidades de la Organización.  De igual manera, un Gerente de Ventas puede estar interesado en el desempeño de sus vendedores en las cuatro regiones en las que se divide su Distrito.  En el caso de un Gerente de Mercadeo, él o ella pudiera estar interesado en comparar el ROI de su inversión publicitaria en la prensa escrita, TV y radio durante el lanzamiento de su nuevo producto.  Cuando se comparan tres grupos o más, una herramienta de la Estadística Inferencial que nos puede ayudar a tomar una decisión informada es el análisis de varianza, mejor conocido como ANOVA.

Análisis de Varianza (ANOVA)

Supuestos del ANOVA
Antes de comenzar a analizar los datos, es importante verificar si los mismos cumplen el supuesto de Normalidad y Homocedasticidad (homogeneidad de varianzas).  Para verificar el supuesto de normalidad, se puede realizar, por ejemplo, una prueba "Shapiro-Wilk" y para probar homocedasticidad, una de las pruebas más comunes es la prueba de Bartlett.  Si una de estas pruebas falla, entonces se debe considerar un método no-paramétrico para comparar los grupos.  En este caso, la prueba adecuada sería la conocida "Kruskal-Wallis", sobre la cual estaremos discutiendo en una próxima publicación sobre métodos estadísticos no-paramétricos.

ANOVA
En la análisis de varianza el investigador controla una o más de las variables independientes (a las cuales también se les conoce como "factores" o "variables de tratamiento") y cada uno de estos factores contiene dos o más niveles o categorías.  Se observan los efectos en la variable dependiente mediante un diseño experimental.    Las hipótesis del investigador en ANOVA son las siguientes:



La hipótesis nula (H0) nos dice que todas las medias poblacionales son iguales (i.e. no hay efecto del tratamiento).  La hipótesis alterna (H1) nos dice que al menos una de las medias poblacionales difiere de las otras (i.e. existe un efecto del tratamiento).  En el caso de que la hipótesis nula sea cierta, el investigador estaría observando algo como esto:

Ahora, si la hipótesis alterna fuera cierta, entonces lo que el investigador estaría observando sería algo como esto:


Ahora bien, la variación total (SST - "total sum of squares") se puede particionar  en dos partes: SSA y SSW (suma de cuadrados entre los grupos y suma de cuadrados dentro de los grupos, respectivamente).  El SSA mide la variación entre los grupos, mientras que el SSW mide la variación  dentro de los grupos.  Para calcular la variación entre los grupos (SSA) utilizamos la siguiente fórmula:

El siguiente diagrama ilustra cómo se mide la variación entre los grupos:


La variación dentro de los grupos se puede calcular utilizando la siguiente sumatoria doble:


La ilustración a continuación presenta cómo se mide la variación dentro de los grupos:

Para cada una de estas medidas se calculan los cuadrados medios ("mean squares") utilizando las siguientes:


donde "n" es el número de observaciones y "c" es el número de categorías. Una vez se particiona la variación y se calculan los cuadrados medios se construye la siguiente tabla, conocida como la tabla ANOVA:


La estadística F que aparece en la última columna de la tabla es la estadística de prueba con la que se determina la validez de la hipótesis nula.  No es otra cosa que la razón entre el estimado de la variación entre los grupos y el estimado de la variación dentro de los grupos.




Si F es mayor que el valor obtenido de la distribución F, entonces decimos que existe poca o ninguna evidencia a favor de la hipótesis nula.


Con la información obtenida de esta prueba, el Gerente tendrá la capacidad para tomar una decisión informada.  En la próxima publicación estaremos discutiendo sobre las pruebas de comparaciones múltiples que el Gerente puede utilizar para identificar exactamente cuáles grupos difieren entre sí.