Algunos contrastes de hipótesis no paramétricas

Mediante procedimientos no paramétricos se pueden resolver contrastes de muy diversa naturaleza.

Así, los contrastes de bondad de ajuste permiten contrastar la distribución de probabilidad de una variable categórica o numérica.

Por otro lado, cuando no se puede aceptar que los datos de una variable numérica siguen una cierta distribución tipo, habitualmente la distribución normal, el problema de contrastar la media de la población, , se transforma en contrastar la mediana, Me, valor de la variable que divide a la población en dos partes iguales, la mitad de los individuos presenta valores de la variable menores o iguales que la mediana y la otra mitad presenta valores superiores a la mediana. Los contrastes de mediana permiten contrastar si los datos son compatibles con una cierta mediana teórica .

Cuando se dispone de una variable cuantitativa X en las dos poblaciones (subpoblaciones), determinadas por las modalidades de una característica cualitativa dicotómica, el objetivo fundamental es comparar su distribución; esto es, estudiar si la variable cuantitativa (variable respuesta) presenta diferencias significativas en cada uno de los dos niveles de la variable cualitativa (factor). Denotaremos por y a la variable cuantitativa en cada una de las dos situaciones. Si las variables, por su peculiaridad (rangos, calificaciones, etc.) o por rechazarse la hipótesis, no pueden considerarse con distribución normal (u otra distribución tipo), se tratará de contrastar si y siguen la misma distribución (contrastes de igualdad de distribución).

Para poder realizar estas comparaciones se utilizan dos muestras provenientes de individuos diferentes (estudiar las posibles diferencias salariales en función del sexo a partir de una muestra de hombres y una muestra de mujeres); en este caso hablaremos de muestras independientes. A veces se puede utilizar una muestra con los mismos individuos para las dos situaciones de la variable (comparar la valoración de dos detergentes a partir de los datos que sobre uno y otro proporciona una única muestra de consumidores); en este caso hablaremos de muestras apareadas o relacionadas. Siempre que se puedan considerar muestras relacionadas, este procedimiento proporciona en principio mejores inferencias.

Los problemas de inferencia sobre dos variables en una población tratan de ver si existe relación entre las mismas a partir de la información muestral. Si las dos variables son categóricas se trata de ver si son independientes y, en caso contrario, cuál es la intensidad de la dependencia o asociación (contrastes de independencia).

Bondad de ajuste C. de la de Pearson
C. de Kolmogorov-Smirnov
 
Mediana C. de signos
C. de rangos con signo de Wilcoxon
 
Comparación de dos poblaciones Muestras independientes C. de Kolmogorov-Smirnov
C. de rachas de Wald-Wolfowitz
C. de la U de Mann-Whitney
   
Muestras relacionadas C. de signos
C. de rangos con signo de Wilcoxon
 
Independencia C. de la de Pearson

 

1. Contrastes de bondad de ajuste

1.1. Contraste de bondad de ajuste de la de Pearson

Sean las k modalidades exhaustivas y mutuamente excluyentes de la característica A; se dispone de n observaciones de A, siendo las correspondientes a la modalidad . Se trata de contrastar la distribución de probabilidad de esta característica:

A partir del estadístico de Pearson y su distribución aproximada bajo ,

se rechaza esta hipótesis cuando

siendo el valor que en una distribución deja a su derecha una probabilidad de .

El estadístico mide la discrepancia entre la frecuencia observada o empírica, , y la frecuencia esperada o teórica bajo , : discrepancias significativamente grandes llevan a rechazar .

Además,

donde es el valor muestral del estadístico.

En la hoja adjunta se muestra un ejemplo de este contraste.

Si la determinación de las probabilidades exige la estimación de s parámetros, la distribución del estadístico bajo resulta una .

En principio, esta prueba permite contrastar la distribución de sucesos no numéricos (por ejemplo, opinión empresarial sobre la situación de su cartera de pedidos en los próximos meses, “peor”, “igual” o “mejor”). Para contrastar si unos datos numéricos (tamaño familiar, renta,...) se ajustan a una distribución hay que agrupar sus valores en intervalos, en especial cuando la distribución a contrastar es continua. En la hoja adjunta se muestra un ejemplo del contraste en esta situación.


1.2. Contraste de bondad de ajuste de Kolmogorov-Smirnov

Se trata de contrastar si unos datos numéricos se ajustan a una distribución teórica, esto es, si una variable X sigue una cierta distribución:

Para ello se compara la función de distribución empírica, , con la función de distribución teórica, , mediante el estadístico de Kolmogorov-Smirnov, , que mide la discrepancia entre las mismas,

La distribución de dicho estadístico bajo es conocida en ciertas situaciones, por ejemplo cuando se contrasta la normalidad (distribución de Lilliefors). De manera general, cuando n es grande, se utiliza el estadístico , cuya distribución aproximada bajo es conocida (distribución de Kolmogorov-Smirnov).

Se rechaza si existen discrepancias significativamente grandes entre la función de distribución empírica y la función de distribución teórica; esto es, si

donde y son los valores que en la distribución de Lilliefors y en la de Kolmogorov-Smirnov, respectivamente, dejan a la derecha una probabilidad de .

Además,

donde y hacen referencia a la distribución de Lilliefors, para muestras de tamaño n, y de Kolmogorov-Smirnov, respectivamente, y es el valor muestral del estadístico.

El contraste admite planteamiento unilateral.

En la hoja adjunta se muestra un ejemplo de este contraste.

2. Contrastes no paramétricos sobre una variable numérica

Contraste de mediana

2.1. Contraste de los signos

Sea una variable X, disponiéndose de una muestra de tamaño n, . Se trata de contrastar si la mediana Me toma un determinado valor :

Para ello se considera p, la proporción de valores de X menores 0 iguales que la mediana de la prueba . Entonces el contraste de mediana se reformula como un contraste de proporciones:


A partir del estadístico, S, número de valores muestrales menores que la mediana , y su distribución bajo

donde n* es el número de observaciones distintas de , se rechaza esta hipótesis cuando

siendo a y b los valores que en la distribución dejan en cada cola una probabilidad no superior a . Esto es, se rechaza cuando hay discrepancias significativamente grandes entre el número de valores muestrales menores que la mediana de la prueba , S, y el número esperado bajo , .

Además,

donde es el valor muestral del estadístico y la mediana de la correspondiente distribución binomial.

El contraste admite planteamiento unilateral.

En la hoja adjunta se muestra un ejemplo de este contraste.

Contraste de mediana

2.2. Contraste de los rangos con signo de Wilcoxon

Sea una variable X, disponiéndose de una muestra de tamaño n, . Se trata de contrastar si la mediana Me toma un determinado valor :

Para ello se calculan los rangos de las diferencias absolutas de X respecto de , , donde , y se consideran los estadísticos y ,

cuya suma es la suma de los n primeros rangos,

Si es la mediana poblacional, alrededor de la mitad de los valores de la muestra estará por encima de (diferencias positivas) y el resto, por debajo (diferencias negativas); además, el tamaño de las diferencias positivas y de las negativas tendrá una distribución similar. Por tanto, y serán parecidos.

A partir del estadístico de Wilcoxon,

cuya distribución bajo es conocida, se rechaza esta hipótesis cuando

siendo k el valor que en la correspondiente distribución deja a su izquierda una probabilidad de . Esto es, se rechaza cuando W toma valores significativamente pequeños, cuando y toman valores significativamente distintos.

Además,

donde es el valor muestral del estadístico.

El test de los signos desprecia parte de la información de la muestra (utiliza si el valor es mayor o menor que la mediana teórica, pero no el tamaño de esta discrepancia). El test de los rangos con signo permite utilizar tanto el signo de la diferencia entre el valor de X y la mediana teórica como el valor de dicha diferencia.

El contraste admite planteamiento unilateral, razonándose en este caso con uno de los dos estadísticos, u .

En la hoja adjunta se muestra un ejemplo de este contraste.

3. Contrastes no paramétricos sobre una variable numérica en dos poblaciones

Contraste de igualdad de distribución: Muestras independientes

3.1. Contraste de Kolmogorov-Smirnov

Sean las variables y , disponiéndose de sendas muestras aleatorias de tamaño y . Se trata de contrastar si y siguen la misma distribución:

Para ello se comparan las dos funciones de distribución empíricas, y , mediante el estadístico de Kolmogorov-Smirnov, que mide la discrepancia entre las mismas,

La distribución de dicho estadístico bajo es conocida en ciertas situaciones, por ejemplo cuando . De manera general, cuando y son grandes, se utiliza el estadístico , cuya distribución aproximada bajo es conocida (distribución de Kolmogorov-Smirnov).

Se rechaza si existen discrepancias significativamente grandes entre las funciones de distribución empírica; esto es, si

donde y son los valores que en las correspondientes distribuciones dejan a la derecha una probabilidad de .

Además,

donde y hacen referencia a la distribución del estadístico cuando y a la distribución de Kolmogorov-Smirnov, respectivamente, y es el valor muestral del estadístico.

El contraste admite planteamiento unilateral.

En la hoja adjunta se muestra un ejemplo de este contraste.

Contraste de igualdad de distribución: Muestras independientes

3.2. Contraste de rachas de Wald-Wolfowitz

Sean las variables y , disponiéndose de sendas muestras aleatorias de tamaño y . Se trata de contrastar si y siguen la misma distribución:

Para ello se ordenan conjuntamente las dos muestras. Si tienen la misma distribución, cabe esperar que los valores de una y otra muestra estén muy mezclados, es decir, que haya muchas rachas (secuencia de valores de una misma muestra).

A partir del estadístico R, número de rachas, cuya distribución bajo es conocida, se rechaza esta hipótesis cuando

siendo k el valor que en la correspondiente distribución deja a su izquierda una probabilidad de . Esto es, se rechaza cuando R toma valores significativamente pequeños, cuando los valores de las muestras están poco mezclados.

Además,

donde es el valor muestral del estadístico.

Si existen muchos empates entre las dos muestras, este contraste no es recomendable.

El contraste admite planteamiento unilateral.

En la hoja adjunta se muestra un ejemplo de este contraste.

Contraste de igualdad de distribución: Muestras independientes

3.3. Contraste de la U de Mann-Whitney

Sean las variables y , disponiéndose de sendas muestras aleatorias de tamaño y . Se trata de contrastar si y siguen la misma distribución:

Para ello se ordenan conjuntamente las muestras y se asigna a cada valor su rango. Se consideran los estadísticos y ,

cuya suma es la suma de los n primeros rangos,

y los estadísticos y ,

cuya suma es

Además,

A partir del estadístico W de Wilcoxon o del estadístico U de Mann-Whitney,

cuyas distribuciones bajo son conocidas, se rechaza esta hipótesis cuando

siendo k el valor que en la correspondiente distribución deja a su izquierda una probabilidad de . Esto es, se rechaza cuando W y U toman valores significativamente pequeños, cuando y 0 y toman valores significativamente distintos.

Además,

donde y son el correspondiente valor muestral del estadístico.

El contraste admite planteamiento unilateral.

En la hoja adjunta se muestra un ejemplo de este contraste.

Contraste de igualdad de distribución: Muestras relacionadas

3.4. Contraste de los signos

Sean las variables y , disponiéndose de sendas muestras aleatorias de tamaño n relativas a los mismos individuos (o individuos gemelos). Se trata de contrastar si y siguen la misma distribución:

A partir del estadístico S, número de diferencias positivas entre los valores de las variables para cada individuo, y su distribución bajo ,

donde n* es el número de diferencias no nulas, se rechaza esta hipótesis cuando

siendo a y b los valores que en la distribución dejan en cada cola una probabilidad no superior a . Esto es, se rechaza cuando hay discrepancias significativamente grandes entre el número de diferencias positivas observado o empírico, S, y el número esperado bajo , .

Además,

donde es el valor muestral del estadístico y la mediana de la correspondiente distribución binomial.

El test se puede aplicar incluso desconociendo los valores de y ; sólo requiere conocer, para cada individuo, si es mayor o menor que .

El contraste admite planteamiento unilateral.

En la hoja adjunta se muestra un ejemplo de este contraste.

Contraste de igualdad de distribución: Muestras relacionadas

3.5. Contraste de los rangos con signo de Wilcoxon

Sean las variables y , disponiéndose de sendas muestras aleatorias de tamaño n relativas a los mismos individuos (o individuos gemelos). Se trata de contrastar si y siguen la misma distribución:

Para ello se calculan los rangos de las diferencias absolutas entre y y se consideran los estadísticos y ,

cuya suma es la suma de los n primeros rangos,

Si y tienen la misma distribución, alrededor de la mitad de los valores de la muestra de será mayor que el correspondiente valor de (diferencias positivas) y el resto, menor (diferencias negativas); además, el tamaño de las diferencias positivas y de las negativas tendrá una distribución similar. Por tanto, y serán parecidos.

A partir del estadístico de Wilcoxon,

cuya distribución bajo es conocida, se rechaza esta hipótesis cuando

siendo k el valor que en la correspondiente distribución deja a su izquierda una probabilidad de . Esto es, se rechaza cuando W toma valores significativamente pequeños, cuando y toman valores significativamente distintos.

Además,

donde es el valor muestral del estadístico.

El test de los signos desprecia parte de la información de la muestra (utiliza si el valor de es mayor o menor que el de, pero no el tamaño de esta discrepancia). El test de los rangos con signo permite utilizar tanto el signo de la diferencia entre el valor de y de , como el valor de dicha diferencia.

El contraste admite planteamiento unilateral, razonándose en este caso con uno de los dos estadísticos, u .

En la hoja adjunta se muestra un ejemplo de este contraste.


4. Contraste de independencia entre variables categóricas

4.1. Contraste de independencia de la de Pearson

Sean las k modalidades exhaustivas y mutuamente excluyentes de la característica A y las p modalidades exhaustivas y mutuamente excluyentes de la característica B; se dispone de n observaciones conjuntas de A y B, siendo (frecuencia absoluta conjunta) el número de observaciones del par de modalidades . Se trata de contrastar la independencia entre ambas características:

Para ello se comparan las frecuencias observadas o empíricas, , con las frecuencias esperadas o teóricas bajo la hipótesis de independencia, , siendo y (frecuencias absolutas marginales) el número de observaciones de la modalidad de A y de de B, respectivamente.

A partir del estadístico de Pearson y su distribución aproximada bajo ,

se rechaza esta hipótesis cuando

siendo el valor que una distribución deja a su derecha una probabilidad de .

Además,

donde es el valor muestral del estadístico.

Dependiendo de las características de cada una de las variables (nominales u ordinales) existen otros estadísticos (Tau, d de Sommer, Gamma,...) con interpretación probabilística.

En la hoja adjunta se muestra un ejemplo de este contraste.