Desigualdad de Markov

El teorema de Markov, comúnmente desigualdad de Markov, denominada también acotación de Markov o cota de Markov, proporciona una cota para la probabilidad de la cola superior de una variable aleatoria cuando se conoce exclusivamente la esperanza o media de dicha variable. Más concretamente, la desigualdad de Markov establece que la cota máxima para la probabilidad de obtener un valor de al menos \(k\) para una variable aleatoria X no negativa  con esperanza finita \(E[X]\) es:

$$P[X \geq k] \leq \cfrac{E[X]}{k}, \ \forall X \geq 0;k>0$$

Haciendo \(k=\lambda E[X]\), la desigualdad de Markov adquiere también esta formulación alternativa:

$$P[X \geq \lambda E[X] ] \leq \cfrac{1}{\lambda}, \ \forall X \geq 0;\lambda>0$$

Ejemplo de aplicación

La temperatura máxima diaria en agosto en una estación meteorológica ha registrado una media de 30 grados centígrados. Se desea acotar la probabilidad de que la temperatura máxima diaria supere los 40 grados. 

$$P[X \geq 40] \leq \cfrac{30}{40}=0.75$$

Utilizando la formulación alternativa, se resuelve de la siguiente forma:

$$P[X \geq 40]=P[X \geq 1.33 \times 30] \leq \cfrac{1}{1.33}=0.75$$

De esta forma, puede asegurarse de que la probabilidad de que la temperatura supere (o iguale) los 40 grados, es a lo sumo 0.75.

Exactitud de la cota de Markov

La desigualdad de Markov no proporciona generalmente una cota "fina" de probabilidad. Volviendo al ejemplo anterior, tenemos que la probabilidad exacta de una temperatura igual o superior a los 40 grados, pueder ser tanto 0.75 (muy probable) como 0.01 (muy improbable). 

En la siguiente tabla se compara la cota de Markov en una distribución de probabilidad de media 10 para diferentes colas, con las probabilidades exactas correspondientes a una distribución exponencial y distribución chi-cuadrado con la misma media (esto es, en el caso de la distribución exponencial con parámetro \(\lambda=0.1\) y en caso de la distribución chi-cuadrado con n=10 grados de libertad):

Cola
Cota de Markov
\(Exp(\lambda=0.1)\)
\(\chi^2_{10}\)
\(X \geq 15\)
\(p\leq 0.66\) 0.223
0.132
\(X \geq 20\) \(p\leq 0.50\) 0.135
0.029
\(X \geq 30\) \(p\leq 0.33\) 0.049
0.0008
\(X \geq 40\) \(p\leq 0.25\) 0.018
0.00002
\(X \geq 50\) \(p\leq 0.20\) 0.006
aprox. 0
\(X \geq 100\) (p\leq 0.10\) 0.00005 aprox. 0

Como puede observarse, la cota pierde exactitud o se aleja más del valor verdadero, cuanto más nos se aleja la cola de la esperanza o valor medio. 

Para aproximaciones o cotas más exactas puede utilizarse la desigualdad de Chebyshev, pero esta exige conocer también la desviación típica de la distribucion. El hecho de que la distribución de Chebyshev aporte una cota más exacta es lógico, ya que incorpora la información adicional proporcionada por la desviación.

Cota de Markov trivial

Cuando el valor a partir del cual se fija la cola de la que se quiere calcular la probabilidad es igual o inferior a la esperanza matemática de la variable, la desigualdad de Markov proporciona una cota trivial igual o superior a 1, de modo que no aporta ninguna información relevante, ya que por definición toda probabilidad debe estar entre 0 y 1. Por ejemplo, para una variable aleatoria con media 10, la cota de Markov para la probabilidad de que el valor de la variable sea mayor que 5 sería:

$$P[X \geq 5] \leq \cfrac{10}{5}=2$$

Como hemos  señalado antes, es trivial acotar la probabilidad a un valor de 2 o menos, ya que por definición toda probabilidad se sitúa en el intervalo [0,1]

Historia

La desigualdad lleva el nombre del matemático ruso Andrey Markov (1856-1922), por ser el primero que demostró la desigualdad en su caso más general, en la tercera edición de su libro "Cálculo de probabilidades". Sin embargo, una aplicación de dicha desigualdad a la media de variables aleatorias fue desarrollada anterioemrmente por su profesor Pafnuty Chebyshev (1821-1853) y por Irénée-Jules Bienaymé (1796-1878), dando lugar a la desigualdad de Chebyshev o desigualdad de Bienaymé-Chebyshev. De hecho, la desigualdad de Chebyshev se demuestra  fácilmente utilizando la desigualdad de Markov.

Puedes encontrar información más extendida sobre la historia de la desigualdad de Markov y su relación con la desigualdad de Chebyshev en este enlace:

https://timeseriesreasoning.com/contents/markovs-inequality-chebyshevs-inequality/

Demostración

  • para variables aleatorias discretas

Partiendo de la definición de esperanza matemática para una variable discreta:

$$E[X]=\sum xp(x)$$

Realizamos una partición en dos del sumatorio para valores de x menores que k, por un lado; y mayores o iguales que k, por otro:

$$E[X]=\sum_{x<k} xp(x)+\sum_{x\geq k} xp(x)$$

Por un lado, dado que la variable es no negativa: 

$$E[X]=\sum xp(x) \geq 0$$

De modo que respecto al primer término de la partición también se cumple:

$$\sum_{x<k} xp(x) \geq 0$$

De esta forma, volviendo a la partición de la esperanza:

$$E[X] \geq \sum_{x\geq k} xp(x)$$

Respecto al segundo término de la igualdad:

$$\sum_{x\geq k} xp(x)  \geq \sum_{x\geq k} kp(x)=k\sum_{x\geq k} p(x)=kp[X \geq k]$$

Uniendo las dos últimas expresiones, reordenando e intercambiando términos:

$$E[X] \geq kp[X \geq k] \longrightarrow p[X \geq k] \leq \cfrac{E[X]}{k}\ \ (qed)$$

  • para variables aleatorias continuas: 

Desarrollando de la misma forma que para variables discretas pero partiendo de la definición de esperanza para variables continuas:

$$E[X]=\int_0^\infty xf(x)dx=\int_0^kxf(x)dx+\int_k^\infty xf(x)dx \geq k\int_k^\infty f(x)dx=kp[X \geq k]$$

Uniendo el primer y último términos del desarrollo algebraico:

$$ p[X \geq k] \leq \cfrac{E[X]}{k}\ \ (qed)$$

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Desigualdad de Markov" (en línea)   Enlace al artículo
Última actualización: 19/01/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Frecuencia conjunta

En estadística, la frecuencia conjunta es el número de observaciones que se dan de forma conjunta o simultánea para un grupo de dos o más valores correspondientes a otras tantas variables estadísticas. Por ejemplo, la frecuencia conjunta del par (hombre, 30-35 años) indica el número de hombres entre...

Recolección de datos (recopilación de datos, toma de datos)

La recolección de datos, recopilación de datos o toma de datos es el proceso por el que se reúnen datos para su posterior análisis. Dicha recolección se puede realizar utilizando diferentes metodologías, destacando entre ellas la observación y la experimentación. Los datos también se pueden recopila...

Medidas de forma estadística (estadísticos de forma)

En estadística, las medidas de forma o estadísticos de forma son aquellas que tiene como objetivo resumir la configuración de los datos dentro de una distribución estadística. Más concretamente las medidas de forma habituales analizan la asimetría de la distribución alrededor de un valor central (co...

Datos bivariados

Los datos bivariados son un conjunto de datos relativos a dos variables estadísticas, de forma que para cada elemento perteneciente a una muestra estadística se realiza una observación en relación a dos caracterśiticas. Por ejemplo, son datos variados los correspondientes a las alturas y pesos de un...