Prueba U de Mann-Whitney

En estadística la prueba de la U de Mann-Whitney (también llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no paramétrica aplicada a dos muestras independientes. Es la versión no paramétrica de la habitual prueba t de Student.

Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual tamaño y extendido a muestras de tamaño arbitrario como en otros sentidos por Henry B. Mann y D. R. Whitney en 1947.

Planteamiento de la prueba

La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras ordinales. El planteamiento de partida es:

Las observaciones de ambos grupos son independientes.
Las observaciones son variables ordinales o continuas.
Bajo la hipótesis nula, la distribución de partida de ambos grupos es la misma: P(X > Y) = P(Y > X)
Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de la otra: P(X > Y) + 0.5 P(X = Y) > 0.5.

Cálculo del estadístico

Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su rango para construir

U_{1}=n_{1}n_{2}+{n_{1}(n_{1}+1) \over 2}-R_{1}

U_{2}=n_{1}n_{2}+{n_{2}(n_{2}+1) \over 2}-R_{2}

donde n₁ y n₂ son los tamaños respectivos de cada muestra; R₁ y R₂ es la suma de los rangos (la suma de la posición relativa de cada individuo de la muestra) de las observaciones de las muestras 1 y 2 respectivamente.

El estadístico U se define como el mínimo de U₁ y U₂.

Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia.

Distribución del estadístico

La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de 20 observaciones se aproxima bastante bien a la distribución normal.

La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes viene dada por la expresión:

z=(U-m_{U})/\sigma _{U}

Donde m_U y σ_U son la media y la desviación estándar de U si la hipótesis nula es cierta, y vienen dadas por las siguientes fórmulas:

m_{U}=n_{1}n_{2}/2.

\sigma _{U}={\sqrt {n_{1}n_{2}(n_{1}+n_{2}+1) \over 12}}.

Implementaciones

Implementación en línea usando javascript
R tiene una implementación del test (al que se refiere como el Wilcoxon two-sample test) mediante wilcox.test (y para el caso de datos pareados, wilcox.exact en el paquete exactRankTests o con la opción exact=FALSE).
Existe una biblioteca de java para realizar este Test y otros muchos más. Su nombre es "Commons Math" y está dentro de un programa de trabajo de Apache. La dirección de esta librería es: http://commons.apache.org/math/userguide/stat.html#a1.8_Statistical_tests