Desigualdad de Markov

El teorema de Markov, comúnmente desigualdad de Markov, denominada también acotación de Markov o cota de Markov, proporciona una cota para la probabilidad de la cola superior de una variable aleatoria cuando se conoce exclusivamente la esperanza o media de dicha variable. Más concretamente, la desigualdad de Markov establece que la cota máxima para la probabilidad de obtener un valor de al menos \(k\) para una variable aleatoria X no negativa  con esperanza finita \(E[X]\) es:

$$P[X \geq k] \leq \cfrac{E[X]}{k}, \ \forall X \geq 0;k>0$$

Haciendo \(k=\lambda E[X]\), la desigualdad de Markov adquiere también esta formulación alternativa:

$$P[X \geq \lambda E[X] ] \leq \cfrac{1}{\lambda}, \ \forall X \geq 0;\lambda>0$$

Puede interesarte también

Ejemplo de aplicación

La temperatura máxima diaria en agosto en una estación meteorológica ha registrado una media de 30 grados centígrados. Se desea acotar la probabilidad de que la temperatura máxima diaria supere los 40 grados. 

$$P[X \geq 40] \leq \cfrac{30}{40}=0.75$$

Utilizando la formulación alternativa, se resuelve de la siguiente forma:

$$P[X \geq 40]=P[X \geq 1.33 \times 30] \leq \cfrac{1}{1.33}=0.75$$

De esta forma, puede asegurarse de que la probabilidad de que la temperatura supere (o iguale) los 40 grados, es a lo sumo 0.75.

Exactitud de la cota de Markov

La desigualdad de Markov no proporciona generalmente una cota "fina" de probabilidad. Volviendo al ejemplo anterior, tenemos que la probabilidad exacta de una temperatura igual o superior a los 40 grados, pueder ser tanto 0.75 (muy probable) como 0.01 (muy improbable). 

En la siguiente tabla se compara la cota de Markov en una distribución de probabilidad de media 10 para diferentes colas, con las probabilidades exactas correspondientes a una distribución exponencial y distribución chi-cuadrado con la misma media (esto es, en el caso de la distribución exponencial con parámetro \(\lambda=0.1\) y en caso de la distribución chi-cuadrado con n=10 grados de libertad):

Cola
Cota de Markov
\(Exp(\lambda=0.1)\)
\(\chi^2_{10}\)
\(X \geq 15\)
\(p\leq 0.66\) 0.223
0.132
\(X \geq 20\) \(p\leq 0.50\) 0.135
0.029
\(X \geq 30\) \(p\leq 0.33\) 0.049
0.0008
\(X \geq 40\) \(p\leq 0.25\) 0.018
0.00002
\(X \geq 50\) \(p\leq 0.20\) 0.006
aprox. 0
\(X \geq 100\) (p\leq 0.10\) 0.00005 aprox. 0

Como puede observarse, la cota pierde exactitud o se aleja más del valor verdadero, cuanto más nos se aleja la cola de la esperanza o valor medio. 

Para aproximaciones o cotas más exactas puede utilizarse la desigualdad de Chebyshev, pero esta exige conocer también la desviación típica de la distribucion. El hecho de que la desigualdad de Chebyshev aporte una cota más exacta es lógico, ya que incorpora la información adicional proporcionada por la desviación.

Cota de Markov trivial

Cuando el valor a partir del cual se fija la cola de la que se quiere calcular la probabilidad es igual o inferior a la esperanza matemática de la variable, la desigualdad de Markov proporciona una cota trivial igual o superior a 1, de modo que no aporta ninguna información relevante, ya que por definición toda probabilidad debe estar entre 0 y 1. Por ejemplo, para una variable aleatoria con media 10, la cota de Markov para la probabilidad de que el valor de la variable sea mayor que 5 sería:

$$P[X \geq 5] \leq \cfrac{10}{5}=2$$

Como hemos  señalado antes, es trivial acotar la probabilidad a un valor de 2 o menos, ya que por definición toda probabilidad se sitúa en el intervalo [0,1]

Historia

La desigualdad lleva el nombre del matemático ruso Andrey Markov (1856-1922), por ser el primero que demostró la desigualdad en su caso más general, en la tercera edición de su libro "Cálculo de probabilidades". Sin embargo, una aplicación de dicha desigualdad a la media de variables aleatorias fue desarrollada anterioemrmente por su profesor Pafnuty Chebyshev (1821-1853) y por Irénée-Jules Bienaymé (1796-1878), dando lugar a la desigualdad de Chebyshev o desigualdad de Bienaymé-Chebyshev. De hecho, la desigualdad de Chebyshev se demuestra  fácilmente utilizando la desigualdad de Markov.

Puedes encontrar información más extendida sobre la historia de la desigualdad de Markov y su relación con la desigualdad de Chebyshev en este enlace:

https://timeseriesreasoning.com/contents/markovs-inequality-chebyshevs-inequality/

Demostración

  • para variables aleatorias discretas

Partiendo de la definición de esperanza matemática para una variable discreta:

$$E[X]=\sum xp(x)$$

Realizamos una partición en dos del sumatorio para valores de x menores que k, por un lado; y mayores o iguales que k, por otro:

$$E[X]=\sum_{x<k} xp(x)+\sum_{x\geq k} xp(x)$$

Por un lado, dado que la variable es no negativa: 

$$E[X]=\sum xp(x) \geq 0$$

De modo que respecto al primer término de la partición también se cumple:

$$\sum_{x<k} xp(x) \geq 0$$

De esta forma, volviendo a la partición de la esperanza:

$$E[X] \geq \sum_{x\geq k} xp(x)$$

Respecto al segundo término de la igualdad:

$$\sum_{x\geq k} xp(x)  \geq \sum_{x\geq k} kp(x)=k\sum_{x\geq k} p(x)=kp[X \geq k]$$

Uniendo las dos últimas expresiones, reordenando e intercambiando términos:

$$E[X] \geq kp[X \geq k] \longrightarrow p[X \geq k] \leq \cfrac{E[X]}{k}\ \ (qed)$$

  • para variables aleatorias continuas: 

Desarrollando de la misma forma que para variables discretas pero partiendo de la definición de esperanza para variables continuas:

$$E[X]=\int_0^\infty xf(x)dx=\int_0^kxf(x)dx+\int_k^\infty xf(x)dx \geq k\int_k^\infty f(x)dx=kp[X \geq k]$$

Uniendo el primer y último términos del desarrollo algebraico:

$$ p[X \geq k] \leq \cfrac{E[X]}{k}\ \ (qed)$$



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Desigualdad de Markov" (en línea)   Enlace al artículo
Última actualización: 23/04/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Generalización estadística

Una generalización estadística es una afirmación única basada en datos estadísticos y medidas de tipo resumen derivadas de aquellos aplicada a una categoría de elementos en general, sin atender a los casos particulares que se sitúen lejos de esa afirmación, justificando dicha generalización en el he...

Factores de predisposición

Los factores de predisposición son aquellos factores de riesgo o causas componentes que incrementan la probabilidad de sufrir una enfermedad o patología, es decir, aumentan la susceptibilidad del sujeto, pero sin constituir una causa directa o indirecta de la aparición de la enfermedad.  Puede...

Coeficiente de asimetría de Fisher

El coeficiente de asimetría de Fisher es una medida estadística de asimetría de una distribución estadística que establece hasta que punto esta es simétrica o asimétrica y en qué dirección, a la izquierda o a la derecha. Puede calcularse tanto para distribuciones de datos como para una distribución ...

Moda absoluta y moda relativa

En relación a la moda de una variable estadística, cabe distinguir entre moda absoluta y moda relativa. La moda absoluta es el valor con mayor frecuencia de todos los valores de la variable estadística, es decir, es la moda en sentido estricto. Pero por otro lado, también se distingue la moda re...