Métodos generales de estimación

La función de verosimilitud

En el recorrido anterior por la estimación paramétrica, se disponía de una población, ; para estimar el parámetro q, se obtenía una realización, , de una muestra aleatoria simple, . La estimación puede realizarse porque ambos elementos (realización y parámetro) están relacionados. El elemento que los relaciona es la función de densidad o de probabilidad de la muestra,

Esa aplicación es una función de n+1 variables, que juega dos papeles, esto es, puede verse de dos formas diferentes:

  1. Cuando el valor del parámetro, q, es conocido, es la probabilidad de obtener una realización .
  2. Cuando la realización es conocida, pero el valor del parámetro es desconocido, dicha función puntúa los distintos valores del parámetro de acuerdo con la probabilidad que asignan al hecho que ha ocurrido, esto es, a la realización. En este papel, la función recibe el nombre de función de verosimilitud.

Resaltemos esta definición:

Sea una población, y la función de probabilidad o de densidad de una muestra aleatoria simple de X. Dada una realización, , de la muestra, llamamos función de verosimilitud del parámetro a la función

definida para

Obsérvese que está definida sólo para los posibles valores del parámetro, . Además, tiene que ser una realización posible de la muestra, y se supone conocida. De hecho, a veces se escribe la función de verosimilitud como L(q) para indicar que es sólo función del parámetro.

La letra "L" que se emplea universalmente para designar la función de verosimilitud proviene del término inglés likelihood, verosimilitud.

Con frecuencia se utiliza la denominada "verosimilitud relativa", que cambia la escala de las verosimilitudes de forma que la función tome sus valores entre cero y uno. Fijemos la definición:

En las condiciones de la definición anterior, se denomina función de verosimilitud relativa a la función del parámetro

definida para . Obviamente se cumple .

Ilustremos estas definiciones con un ejemplo que, además de construir una función de verosimilitud, explota sus posibilidades de cara a la estimación de parámetros.

Ejemplo. Supongamos una población de Bernoulli, , con . Podemos imaginarnos esta población como una moneda cuya probabilidad de obtener cara es p. Se supone que p es desconocida, y que tratamos de estimarla.

Obtenemos una realización, , de una m.a.s. o, utilizando la imagen de la moneda, lanzamos cuatro veces la moneda de forma independiente, representando las cuatro variables aleatorias, , cada una de las tiradas, y los resultados de los lanzamientos. Por ejemplo, obtenemos (1,1,0,1), éxito en las tiradas primera, segunda y cuarta, y fracaso en la tercera.

La función de probabilidad de la población puede escribirse como , para x=0,1, de donde la función de probabilidad de la muestra resulta

En concreto, para n=4,

Como hemos señalado, si la probabilidad de éxito, p, es conocida, esta función proporciona las probabilidades de las distintas realizaciones. Por ejemplo, si sabemos que p=0.3,

o

Pero si p es desconocida, obtenemos la función de verosimilitud. Como la realización de la muestra ha sido (1,1,0,1), dicha función será

Por ejemplo, L(0.3)=0.0189 o L(0.5)=0.0625. La figura adjunta muestra esta función. Nótese, por ejemplo, que la verosimilitud de p=0.3 es el 30% de la verosimilitud de p=0.5, esto es, es mucho más verosímil p=0.5 que p=0.3.

Como antes dijimos, la verosimilitud es la probabilidad de que ocurra lo que efectivamente ha ocurrido. Muestra la diferente credibilidad que muestran los distintos valores del parámetro una vez obtenidos los datos muestrales.

La verosimilitud no es una probabilidad sobre p y sólo se utiliza en términos relativos, comparando las verosimilitudes para distintos valores de p, como en el párrafo anterior. Por ejemplo, el valor p=0.5 siempre tiene la misma verosimilitud, L(0.5)=0.0625, ocurra el resultado que ocurra. Ello no quiere decir que el hecho de que la moneda no esté cargada es igualmente razonable para cualquier realización de la muestra, porque para cada realización, habrá que comparar su verosimilitud con la de otros valores del parámetro.

¿Cómo aprovechar la información proporcionada por la función de verosimilitud en relación con la estimación de p? Una posibilidad consiste en fabricar un intervalo de valores creíbles de p. Algunos autores, por ejemplo, sugieren denominar "creíbles" o "viables" a los valores cuya verosimilitud relativa es superior a 0.1 (al 10%) ("increíbles" o "inviables" a los que no cumplan esta condición), "muy creíbles" o "muy viables" si es superior a 0.5 (al 50%) y "muy inviables" o "muy increíbles" si no supera 0.01 (el 1%). Las cifras son, por supuesto arbitrarias, aunque son bastante populares.

Por ejemplo, con esta terminología (y dado que hemos obtenido los resultados (1,1,0,1)), son muy inviables los valores de p inferiores a 0.106 o superiores a 0.998; son viables o creíbles los del intervalo (0.241 , 0.989) y son muy viables o muy creíbles los del intervalo (0.461 , 0.935).

Otra posibilidad es elegir como estimación de p el valor más creíble (más verosímil), aquél que tiene mayor verosimilitud (verosimilitud relativa igual a la unidad). Esa estimación se denomina máximo-verosímil. En nuestro caso, la estimación de p sería .

Cuando la población es discreta, la función de verosimilitud es la probabilidad de que ocurra la realización que efectivamente ha ocurrido. Cuando la población es continua, la función de verosimilitud es una densidad y no una probabilidad. De hecho, la probabilidad de que ocurra una realización concreta de la muestra es siempre igual a cero, sea cual sea el valor del parámetro. Pero la densidad de la muestra para una realización representa la probabilidad alrededor de esa realización, por lo que básicamente los razonamientos anteriores, que han sido desarrollados para variables discretas, se mantienen aunque la población sea continua.

 

Método de máxima verosimilitud

Como el ejemplo anterior ilustra, una posibilidad prudente, cuando se desea una estimación puntual de un parámetro, consiste en elegir como estimación el valor del parámetro que maximiza la función de verosimilitud (dicho valor del parámetro será una función de porque la función de verosimilitud depende de la realización de la muestra). Si esta maximización la obtenemos para una realización cualquiera, dispondremos de la expresión del estimador, que se denomina máximo-verosímil. Formalicemos el resultado.

Sea una población, y la función de verosimilitud para una muestra aleatoria simple de X. El valor, , tal que

recibe el nombre de estimación máximo-verosímil de q. La función de la muestra se denomina entonces estimador máximo-verosímil de q.

Con frecuencia, esta práctica proporciona el máximo o, al menos, indicaciones acerca de cómo obtenerlo. La primera de estas dos condiciones (anulación de la primera derivada) recibe el nombre de ecuación de verosimilitud.

Los siguientes ejemplos muestran cómo se desarrollan los cálculos analíticamente.

Ejemplo (continuación). Volvamos sobre nuestra población de Bernoulli, , con , descrita abreviadamente como una moneda cuya probabilidad (desconocida) de obtener cara es p. Anteriormente, hemos visto cómo realizar estimaciones de p cuando se ha obtenido el resultado (1,1,0,1), esto es, éxito en las tiradas primera, segunda y cuarta, y fracaso en la tercera. Ahora haremos el trabajo en general (para una realización, cualquiera, de una m.a.s. , con lo que obtendremos la expresión general del estimador. La función de verosimilitud vale

y su neperiano,

de donde la ecuación de verosimilitud resulta

cuya solución es , esto es . La segunda derivada vale , luego se trata de un máximo. En definitiva, la estimación máximo verosímil es la media o proporción muestral de éxitos, de donde el estimador máximo verosímil es , la media o proporción muestral de éxitos para la muestra aleatoria simple.

Obviamente, si la realización fue (1,1,0,1), la estimación resulta , que coincide con el resultado obtenido anteriormente.

Ejemplo 1 (continuación). Para la estimación de la duración media de las bombillas, q = E[X], para una población de duraciones exponencial negativa, la función de verosimilitud es

cuyo neperiano resulta . La ecuación de verosimilitud es, pues,

cuya solución resulta , la duración media de las bombillas de la realización de la muestra. Se comprueba que se cumple la condición de segundo orden (segunda derivada negativa) por lo que el estimador máximo verosímil resulta , la media muestral.

Ejemplo 2 (continuación). En el ejemplo 2, el recargo (porcentual) era . La función de verosimilitud resulta

donde, como puede observarse, las condiciones las hemos escrito para q, ya que la función debe verse como función de q. Nótese, además que dichas condiciones equivalen a . El neperiano de la verosimilitud y su derivada valen entonces

Nótese que la derivada no se anula, sino que es siempre negativa (la función es decreciente) por lo que el máximo se encuentra en el primer valor en el que la función no se anula, esto es, . En definitiva, el máximo de la verosimilitud se encuentra en el máximo muestral, y el estimador máximo verosímil resulta .

La gráfica muestra la función de verosimilitud y su máximo.

La ilustración posterior muestra la dinámica de la máxima verosimilitud.

[Insertar un enlace a una hoja de cálculo]

 

Máxima verosimilitud para varios parámetros

El método de máxima verosimilitud se aplica de la misma manera si hay más de un parámetro a estimar, si bien con una mayor complejidad en el cálculo del máximo. La idea es totalmente similar:

Sea una población cuya función de densidad o de probabilidad depende de un vector de k parámetros. Sea su función de verosimilitud para una muestra aleatoria simple de X. El vector, , tal que

recibe el nombre de estimación máximo-verosímil de . La función de la muestra se denomina entonces estimador máximo-verosímil de .

Ilustraremos el procedimiento con la estimación de los dos parámetros, m y (nótese que consideramos , y no s como parámetro, por lo que las funciones se escriben en función de y con respecto al mismo se toman las derivadas) de una población normal. La verosimilitud resulta

y su neperiano

La ecuación de verosimilitud es ahora un sistema de dos ecuaciones con dos incógnitas,

De la primera se obtiene , que sustituida en la segunda proporciona , esto es,.

La matriz hessiana, sustituidos los parámetros por las soluciones de la ecuación de verosimilitud, resulta

que claramente es definida negativa. En definitiva, los estimadores máximo verosímiles son y .

Máxima verosimilitud e información parcial. Principio de máxima verosimilitud.

La idea que subyace al principio de la estimación máximo-verosímil (maximizar la probabilidad o la densidad de la realización de la muestra) se aplica también cuando no se conoce completamente la realización de la muestra, sino sólamente se dispone de información parcial sobre la misma. Esa información es un suceso, cuya probabilidad dependerá del parámetro; su maximización me proporcionará la estimación máximo verosímil. Resumimos esta idea en un enunciado:

Principio de máxima verosimilitud

Sea una población, supongamos que se dispone de una muestra aleatoria simple de X, y que ha ocurrido un suceso, S, relacionado con la muestra. Llamemos p [ S , q ] a su probabilidad. El principio de máxima verosimilitud consiste en tomar como estimación máximo verosímil de q el valor tal que

Si el suceso S incluye realizaciones concretas de una variable continua, se sustituirán adecuadamente las probabilidades por densidades.

Un par de ejemplos aclararán el modo de trabajo con el principio de máxima verosimilitud:

Ejemplo. Se quiere estimar la proporción de clientes de un hipermercado que están satisfechos del trato recibido. Para ello, se encuesta a 10 clientes a la salida de la línea de cajas; entre ellos, 7 están satisfechos, 2 no lo están y otro dice que se lo tiene que pensar. Se trata, pues, de una población de Bernoulli, , donde p representa la proporción de clientes satisfechos con el trato recibido, y X representa un cliente genérico, tomando el valor 1 si está satisfecho y 0 si no lo está.

En este caso, la información es parcial, porque sabemos que hemos obtenido 7 éxitos (7 unos), 2 fracasos (2 ceros), pero el décimo resultado ignoramos si es éxito o fracaso (desconocemos también el orden de los resultados, pero esa información sabemos que no es información útil para estimar p). En definitiva, ha ocurrido un suceso

S="7 u 8 éxitos en 10 tiradas independientes de Bernoulli de parámetro p"

y, como el número de éxitos es una variable binomial, B(10,p), podemos escribir simbólicamente

con lo que

y la ecuación de verosimilitud resulta, tras operar un poco,

Las soluciones son, por un lado, p=0 y p=1 (que son mínimos; de hecho, para esos valores la probabilidad vale cero) y por otro las soluciones de la ecuación de segundo grado. Una de ellas es p=1.4866, que no consideramos por estar fuera del intervalo [0,1], y la segunda p=0.7534. Se comprueba (la comprobación no es difícil, pero sí pesada) que para este valor la segunda derivada es negativa, con lo cual, para ese valor existe un máximo. En definitiva, la estimación máximo verosímil de la proporción de clientes satisfechos es .

Obsérvese que no se obtiene el mismo resultado eliminando ese indeciso. En ese caso, tendríamos 7 éxitos y dos fracasos en 9 tiradas de Bernoulli independientes, con lo que estimaríamos p como la proporción muestral de éxitos, , una estimación más alta.

Algunos expertos en tratamiento de encuestas sugieren desdoblar los indecisos en dos encuestados, uno a favor y otro en contra. Los que están a favor se desdoblarían en dos, ambos a favor, y los que están en contra en dos, ambos en contra. Nuestros 10 encuestados se desdoblarían en 20, 15 a favor y 5 en contra. La estimación de p sería ahora , la más baja de las 3.

Ejemplo 1 (continuación). Para la estimación de la duración media de las bombillas, q = E[X], para una población de duraciones exponencial negativa, supongamos que sólo (¡sólo!)se dispone de 3 años para hacer la encuesta.

Se ponen 5 bombillas en funcionamiento, una se funde en 0.8 años, otra en 1.2 años, una tercera en 2.2 años, y las otras dos no se funden en los 3 años disponibles, por lo que finaliza el experimento.

Una posibilidad consiste en eliminar del estudio las dos bombillas que no se han fundido, y estimar q por máxima verosimilitud a partir de las tres restantes, . Esta posibilidad no es buena, porque ignora precisamente las bombillas que más duran, con lo que subestima el valor de q. La solución proviene del principio de máxima verosimilitud. Puesto que el orden es irrelevante de cara a la estimación de q, el suceso que ha ocurrido puede escribirse como

Se trata de maximizar su probabilidad pero, siendo continua la distribución de la población (exponencial negativa) las probabilidades de tres primeros sucesos deben sustituirse por la densidad. Así, hay que maximizar

que, teniendo en cuenta que , resulta la función de q

cuyo neperiano es y, derivándolo obtenemos la ecuación de verosimilitud,

con solución . La segunda derivada vale -0.2595<0, esto es, se trata de un máximo. En definitiva, la estimación máximo-verosímil de q con la información parcial disponible es años.

Propiedades de los estimadores máximo-verosímiles

La popularidad del uso de los estimadores máximo-verosímiles se basa en que es un buen estimador del parámetro. Enunciaremos, sin demostrar, sus principales propiedades. En todas ellas supondremos que se dispone de una población, , y que es una muestra aleatoria simple de X

Invariancia

Sea el estimador máximo verosímil de q, sea una transformación inyectiva. Entonces el estimador máximo-verosímil de h es

Como puede verse, la propiedad de invariancia permite realizar la estimación máximo-verosímil en el terreno en que nos sea más cómodo. Veamos el siguiente ejemplo:

Ejemplo 1 (continuación). La duración media de las bombillas, q = E[X], se ha estimado por máxima verosimilitud como la duración media de la muestra, . Supongamos que se quiere estimar, por máxima verosimilitud, la probabilidad de que la bombilla dure más de dos años, . Como p es una función inyectiva de q, su estimador máximo verosímil será

esto es, no es necesario escribir la verosimilitud como función de p para maximizarla, sino que puede utilizarse el estimador máximo-verosímil de q.

 

 

Aunque sea función de T, esto no quiere decir que sea suficiente, porque la función que los relaciona no tiene por qué ser biyectiva. No obstante, habitualmente lo es, lo que implica que muchas veces el estimador máximo verosímil es efectivamente un estimador suficiente.

Eficiencia

Supongamos que se cumplen las condiciones de regularidad de Cramér-Rao y que el estimador máximo verosímil se obtiene como solución de la ecuación de verosimilitud. Entonces, si existe un estimador eficiente, coincide con el estimador máximo verosímil.

La anterior propiedad garantiza que, si hay un estimador eficiente (que de existir es único, como sabemos), el máximo verosímil es eficiente. Para ello se exige, claro está, que se cumplan las condiciones de regularidad de Cramér-Rao, porque de no ser así no podríamos hablar de estimadores eficientes; pero se exige también que el estimador máximo verosímil se obtenga por técnicas de derivación.

Comportamiento asintótico

Supongamos que se cumplen las condiciones de regularidad de Cramér-Rao y que el estimador máximo verosímil se obtiene como solución de la ecuación de verosimilitud. Supongamos también que se cumplan ciertas condiciones de regularidad adicionales sobre la función de densidad o de probabilidad de la población (que no enunciaremos y que se cumplen en los casos de interés práctico). Entonces se cumple:

  1. El estimador máximo-verosímil es consistente, esto es,
  2. Se verifica la convergencia
    donde es la cantidad de información de la muestra.

Obsérvese, en primer lugar, que las condiciones que se exigen son las mismas que las que garantizan la eficiencia del estimador, cuando existe. Además, se exigen ciertas condiciones de regularidad funcional que se cumplen en los casos que nosotros estudiamos, por lo que no las detallamos.

En cuanto a las conclusiones, obsérvese que, por la primera, se garantiza la consistencia del estimador.

Por la segunda, se obtiene la normalidad como distribución aproximada del estimador máximo-verosímil, lo que permitirá su uso para construir intervalos de confianza aproximados para q. Pero, además, nótese que tiene aproximadamente esperanza nula y varianza unidad, por lo que

o, dicho de otra forma, la esperanza del estimador es aproximadamente igual al parámetro, y además,

o equivalentemente , esto es, la varianza del estimador es aproximadamente la cota de Cramér-Rao. En definitiva, estos resultados se describen diciendo que, en las condiciones del resultado anterior, el estimador máximo verosímil es asintóticamente insesgado y asintóticamente eficiente.

 

Método de los momentos (de analogía)

El método de los momentos esta basado en una idea clásica que propone estimar las medias o varianzas poblacionales mediante las medias o varianzas muestrales, respectivamente. Por ello se denomina de analogía, porque su técnica consiste en sustituir las características poblacionales por las análogas muestrales.

El razonamiento básico que apoya este método es que si la muestra es representativa de la población, las características muestrales deberán ser representativas de las poblacionales.

La mayor ventaja de este método es su sencillez de aplicación, por lo que se sigue utilizando en situaciones en las que otros métodos se complican, o cuando el número de parámetros desconocidos a estimar es abundante.

No obstante, los estimadores obtenidos por este método no están muy cualificados.

Definamos el método y más adelante iremos viendo todas estas objeciones.

Sea una población cuya densidad o función de probabilidad depende de k parámetros desconocidos. Sus momentos, , dependerán de los parámetros, por lo que podemos escribir el sistema de k ecuaciones con k incógnitas

que puede resolverse con respecto a los parámetros,

Entonces, dada una muestra aleatoria simple, , los estimadores por el método de los momentos se obtienen sustituyendo

donde es el momento muestral de orden i-ésimo.

La elección de los k primeros momentos, y el hecho de que sean centrados respecto del origen (no centrales) es una simplificación. La idea es elegir aquellos momentos que simplifiquen más la resolución del sistema de ecuaciones y, por otro lado, que sean fáciles de calcular (del menor orden posible). Nótese también que las ecuaciones del sistema no son lineales, por lo que no está garantizado que el sistema tenga solución.

Ejemplo. Supongamos que la población tiene una distribución , con función de densidad

Conocemos la esperanza poblacional, , y la varianza poblacional, . El sistema, su resolución y la estimación resultan

donde hemos escrito la media muestral, para , y la varianza muestral, , para . Puede verse que, en este caso, es más fácil utilizar el segundo momento central en lugar del no central.

El siguiente ejemplo ilustra de manera sencilla la no univocidad de la solución.

Ejemplo. Supongamos que la población tiene una distribución de Poisson, . El parámetro, l, es la esperanza poblacional, pero también es la varianza poblacional. Por tanto, el método de los momentos permite estimar el parámetro como , o como . Obviamente, ambas estimaciones no conducen a los mismos resultados.

Veamos otro ejemplo de aplicación.

Ejemplo. Un investigador desea estudiar la proporción p, de personas que defraudan a Hacienda en la declaración del IRPF. Temiendo que los encuestados contesten negativamente a una pregunta directa, utiliza el siguiente mecanismo: El encuestado lanzará al aire una moneda no cargada (sin que el encuestador vea el resultado). Si sale cara, responderá que sí es un defraudador, y si sale cruz responderá la verdad (sí o no, según su caso).

Asociamos una variable, Y, a las respuestas de los encuestados, con Y=1 si el encuestado responde afirmativamente, y Y=0 si la respuesta es negativa. Los n encuestados vendrán representados por la realización de una muestra aleatoria simple, , de Y. Como

la esperanza de Y valdrá , de donde podemos despejar el parámetro a estimar, , que se estima como , por el método de los momentos.

Obsérvese que si la media muestral de respuestas positivas, es menor que 0.5, la estimación de p es negativa. En otras palabras, el estimador obtenido no es realmente un estimador, porque sus valores no están necesariamente en el campo de variación del parámetro, que es el intervalo [0 , 1]