Variable cualitativa frente a variable cualitativa

El interés del análisis se concreta en saber si existe asociación o dependencia entre dos características cualitativas y, de ser así, cuál es el grado y el sentido de la asociación. Este análisis permitirá responder a preguntas como ¿el tipo de contrato depende del sexo?, ¿la opinión sobre los emigrantes depende del nivel de estudios?,... En principio, se supone que la posible relación es unidireccional, esto es, una variable es independiente (causa o factor) y otra dependiente (efecto o respuesta). Así, el sexo puede influir en el tipo de contrato, pero no al revés.
El análisis se puede extender a características cuantitativas, bien directamente si toman pocos valores, bien si se realiza previamente una categorización de las mismas.

Genéricamente designaremos por A y B a las dos características y por y , las correspondientes modalidades. La distribución conjunta de frecuencias viene dada por:
la frecuencia absoluta,

= número de individuos que presentan el par de modalidades

y la frecuencia relativa

= proporción de individuos que presentan el par de modalidades.

La tabla de doble entrada (tabla de contingencia) recoge, en términos absolutos o relativos, esta distribución conjunta:
Distribución de frecuencias conjunta de A y B

Distribución de frecuencias conjunta de A y B
A / B

La última columna recoge la distribución marginal de A,

= número de individuos que presentan la modalidad ,

y la última fila, la distribución marginal de B,

= número de individuos que presentan la modalidad .

Dividiendo por cada uno de los valores de la tabla, obtendremos la distribución conjunta y las distribuciones marginales, en términos relativos:

, y

Si nos quedamos con los individuos que presentan la modalidad de B y analizamos en ellos la característica A, obtendremos la distribución condicionada de A cuando B vale ; esto es, obtenemos la distribución de A en la subpoblación formada por los individuos que presentan la modalidad de B.

A / B =
Frecuencia absoluta
Frecuencia relativa
1


Igualmente podíamos obtener la distribución condicionada de B cuando A vale . Del mismo modo podemos condicionar a más de una modalidad.
Las características A y B pueden ser independientes (no se influyen) o dependientes. Formalmente, A y B son independientes si se verifica cualquiera de las siguientes condiciones equivalentes:
- La distribución conjunta, en términos absolutos, es:

para todo , .

- La distribución conjunta, en términos relativos, es el producto de las marginales:

para todo , .

- La distribución condicionada, en términos relativos, coincide con la marginal:

para todo , .

Existen distintos coeficientes que miden el grado de dependencia o asociación entre dos características cualitativas. La medida básica es el estadístico chi cuadrado de Pearson:

,

donde es la frecuencia absoluta observada del par de modalidades,

=,

y es la frecuencia absoluta esperada si y fuesen independientes,

.

En la medida en que se acerque a cero, la dependencia o asociación será débil, en la medida en que se aleje, la dependencia o asociación será más fuerte. A partir del coeficiente se obtienen otros (Phi, V de Cramer y Coeficiente de contingencia) que se interpretan de forma análoga:

el coeficiente Phi,

el coeficiente V de Cramer,

y el coeficiente de contingencia C,

En general, para todos estos estadísticos valores “pequeños” indican independencia, mientras que valores “grandes” indican dependencia.
Finalmente, la comparación de las frecuencias observadas con las frecuencias esperadas permitirá estudiar el sentido de la asociación existente entre pares de modalidades. Así,

Si el par de modalidades presenta asociación positiva
Si el par de modalidades presenta asociación negativa

También se puede abordar el estudio de la dependencia entre dos características a través de las distribuciones marginales y condicionadas. El análisis se concreta en la comparación entre la distribución de la variable dependiente en las distintas categorías de la variable independiente. En caso de que A y B sean dependientes, el grado de dependencia será tanto mayor cuanto mayor sea la discrepancia entre las distribuciones marginales y condicionadas. El sentido de la asociación se determinará de acuerdo con el siguiente criterio:

Si frec. cond. > frec. marg. el par de modalidades presenta asociación positiva
Si frec. cond.< frec. marg. el par de modalidades presenta asociación negativa

En la hoja adjunta se muestra un ejemplo de análisis de dos características cualitativas.