Variable cuantitativa frente a variable cuantitativa

El objetivo, en principio, es detectar posibles relaciones lineales entre las variables (Análisis de correlación) y, si éstas presentan un fuerte grado de correlación, buscar la forma funcional que mejor explique la variable dependiente a partir de la independiente (Análisis de regresión).
Así, podríamos estudiar, por ejemplo, si existe relación entre la renta y el consumo de las familias y, de existir, tratar de encontrar la mejor relación funcional que explique el consumo a partir de la renta.
Denotaremos por X e Y a las variables y por a los N pares de valores correspondientes a los N individuos de la población.

Tablas de contingencia. No tienen interés salvo en el caso, poco habitual, de que las variables sean “muy discretas”, es decir, que tomen pocos valores y repetidos.

Representaciones gráficas
Histograma de frecuencias tridimensional. Representación gráfica de la distribución conjunta de dos variables cuantitativas agrupados en intervalos de igual amplitud. A cada par de categorías le corresponde un prisma rectangular de altura igual a su frecuencia conjunta.

Diagrama de dispersión. En un sistema de ejes cartesianos se representan los pares de puntos de las dos variables analizadas (la variable independiente en abcisas y la variable dependiente en ordenadas). La forma de la nube de puntos puede dar una idea de la posible relación funcional entre las variables.

Análisis de correlación. Consiste en obtener una serie de estadísticos que miden el grado de correlación lineal entre las variables. El coeficiente de Pearson utiliza directamente los valores de las variables, mientras que los coeficientes de Spearman y Kendall utilizan los rangos de las mismas. Las tres medidas admiten una interpretación probabilística.

Coeficiente de correlación de Pearson

,

donde es la covarianza entre X e Y,

y y sus respectivas desviaciones. Es decir,

.


El coeficiente está comprendido entre –1 y 1: valores próximos a 1 revelan relaciones más o menos lineales y crecientes; valores próximos a –1, relaciones más o menos lineales y decrecientes; por último, valores próximos a 0, ausencia de relación lineal (r = 0, X e Y están incorrelacionadas). Los siguientes gráficos ilustran las distintas situaciones.


Coeficiente de correlación de rangos de Spearman
Si denotamos por X’ e Y’ los rangos (el número de orden de sus valores) de X y de Y, el coeficiente de correlación de rangos de Spearman es el coeficiente de correlación de Pearson para X’ e Y’:

.

La medida se interpreta en el mismo sentido que el coeficiente de Pearson, pero en este caso en términos de rangos.

Coeficiente de concordancia de Kendall
Sean X e Y las variables que recogen las clasificaciones de los individuos respecto de dos conceptos, en principio sin empates. Para cada par de valores , se contabiliza el número de pares, , para los que las dos variables están en el mismo sentido (concordancias) y el número de pares en sentido inverso (discordancias). Así,

e son concordantes si

e son discordantes si

Entonces, el coeficiente tau de Kendall se define como

donde C y D denotan el número de pares concordantes y discordantes, respectivamente.
La medida está comprendida entre –1 y 1: si está próximo a 1 las dos clasificaciones son más o menos concordantes; si está próximo a –1, son más o menos discordantes; por último, si está próximo a 0, las dos clasificaciones no guardan relación.


Análisis de regresión
El análisis de regresión tiene por objetivo, en principio, obtener la función matemática que mejor explica una variable cuantitativa Y (variable dependiente o a explicar) a partir de otra variable cuantitativa X (variable independiente o explicativa); posteriormente, el análisis de regresión se extiende pudiéndose explicar una variable (o más), cuantitativa o, incluso, cualitativa, a partir de varias variables cuantitativas y cualitativas.

Además de la finalidad explicativa, el análisis de regresión permitirá predecir valores de la variable dependiente para distintos valores de la independiente.
Así, se trataría de explicar Y mediante f(X), función de X que se aproxima a Y pero no coincide con Y (las relaciones entre variables no son exactas):

.

Dicha función es la estimación de Y, ,

cometiéndose errores pues Y y su estimación no tienen porqué coincidir en todos sus puntos:

.

Más en concreto, para cada par de valores correspondiente a uno de los N individuos, se obtiene


La función f se puede buscar sin ningún tipo de limitación (regresión general de escaso interés práctico) o limitándose a algún tipo de función sencilla (lineal, , parabólica de 2º grado, , exponencial, o ,…). El caso más común es el de regresión lineal; diversos motivos avalan esta elección:
- La relación más o menos lineal entre variables es frecuente; en muchas situaciones en las que no se da originalmente esta relación, ciertas transformaciones sencillas en las variables (transformaciones logarítmicas, exponenciales, inversas, cuadráticas,...) permiten obtener la deseada linealidad.
- La relación lineal es fácilmente interpretable.
- Los desarrollos matemáticos se facilitan.
Entonces:

De entre todas las posibles rectas, buscaremos aquella que produzca menos errores; en concreto, obtendremos aquella que minimice la suma de los errores al cuadrado:

Los valores de a y b que minimizan la suma de los errores al cuadrado,


(ordenada en el origen)
(pendiente)

dan lugar a la recta de regresión mínimo cuadrática. El coeficiente a nos da el valor de Y cuando X es cero (no es siempre interpretable) mientras que b es lo que crece o decrece Y cuando X crece en una unidad.

Para valorar la bondad de la recta de regresión tenemos en cuenta la descomposición de la varianza,

,

esto es,

Variabilidad total o a explicar = Variabilidad de la regresión + Variabilidad residual o no explicada

A partir de aquí se define el coeficiente de determinación,

,

la variabilidad explicada sobre la variabilidad a explicar (habitualmente en porcentaje), que permite evaluar la capacidad explicativa y predictiva del modelo propuesto.

Cuando la regresión es lineal y sólo se dispone de una variable explicativa,

,

esto es, el coeficiente de determinación (mide la bondad del ajuste lineal) es igual al cuadrado del coeficiente de correlación de Pearson (mide la intensidad y el sentido de la relación lineal).

En la hoja adjunta se muestra un ejemplo en el que se aplica esta técnica de análisis bivariante.

En algunas ocasiones, los valores de las variables pueden agruparse en intervalos y aplicar las técnicas de análisis de dependencia vistas para dos características cualitativas. Véase ejemplo.