Varianza muestral

Este artículo es sobre la varianza muestral sin corregir para una serie de datos. Se denomina también varianza poblacional, aunque en Ikusmira utilizaremos el término de varianza poblacional para hacer referencia a la varianza de una distribución de probabilidad.

Quizás estés interesado mñas exactamente en la cuasivarianza o varianza corregida

La varianza muestral no corregida, a veces llamada también varianza de los datos o varianza poblacional,  es una medida estadística de dispersión absoluta para un conjunto de datos referidos a una variable estadística cuantitativa. Conceptualmente es la media de las distancias al cuadrado de los valores de la variable a la media aritmética simple de la distribución; de esta forma, una varianza más alta que otra indica que la desviación de los datos o de los valores de una variable estadística o variable aleatoria respecto a la media es mayor y por tanto también es mayor la dispersión. Se utiliza cuando se desea determinar la varianza de una serie de datos sin ir mas allá, esto es, cuando el objetivo no es realizar a partir de la muestra una estimación o inferencia sobre la varianza de una población. Su resultado se mide en unidades de la variable al cuadrado.

La desviación típica es la raíz cuadrada de la varianza e indica en promedio la desviación media respecto a la media; así pues, la desviación típica tiene un significado más concreto e inmediato que la varianza como desviación al cuadrado media respecto a la media, pero aún así la varianza se utiliza frecuentemente en estadística debido a sus propiedades matemáticas.

Hay que advertir de que se trata de una medida no robusta, muy sensible a la existencia de datos atípicos en el conjunto de datos. 

Cálculo para una serie de datos individuales

Para una serie de datos \(x_1,x_2,\ldots,x_n\), la varianza (\(s_x^2)\) se calcula de acuerdo a la siguiente fórmula:

$$s_x^2=\cfrac{\sum_i(x_i-\overline{x})^2}{n}$$

Por ejemplo, a partir de las puntuaciones \(x_i\) obtenidas por un grupo de alumnos en un examen recogidas en la primera columna se muestran a continuación los cálculos para la determinación de la varianza muestral:

 
\(x_i\)
\((x_i-\overline{x})\)
\((x_i-\overline{x})^2\)
1 -5
25
3
-3
9
4
-2
4
4
-2

4

5
-1
1
7
1
1
8
2
4
9
3
9
9
3
9
10
4
16
Suma=60
Suma=0
Suma=82

Calculamos en primer la media aritmética simple, siendo \(n\) el número de datos:

$$\overline{x}=\cfrac{\sum_ix_i}{n}=\cfrac{60}{10}=6$$

En la segunda columna calculamos las desviaciones respecto a la media. Su suma es siempre es 0. 

En la tercera columna calculamos las anteriores desviaciones al cuadrado, con el objetivo de que no se compensen unas con otras por tener signo distinto, y las sumamos. Dividiendo esa suma entre el tamaño de la muestra o  número de datos obtenemos la varianza, cuyas unidades son simepre la unidad de la variable al cuadrado:

$$s_x^2=\cfrac{\sum_i(x_i-\overline{x})^2}{n}=\cfrac{82}{10}=8.2\ puntos^2$$

Fórmula simplificada para el cálculo de la varianza muestral

Desarrollando algebráicamente la fórmula anterior se llega a esta fórmula simplificada  de la varianza muestral:

$$s^2=\cfrac{\sum_ix_i^2}{n}-\overline{x}^2$$

Demostración

$$s_x^2 = \cfrac{\sum_i (x_i - \overline{x})^2}{n} = \cfrac{\sum_i x_i^2 - \sum_i 2x_i \overline{x} + \sum_i \overline{x}^2}{n} = \cfrac{\sum_i x_i^2 - 2 \overline{x} \sum_i x_i + \sum_i \overline{x}^2}{n}=$$

$$\cfrac{\sum_i x_i^2}{n} - 2\overline{x}\cfrac{\sum_i x_i}{n}+ \cfrac{\sum_i \overline{x}^2}{n}=\cfrac{\sum_i x_i^2}{n}- 2\overline{x}^2+\cfrac{n\overline{x}^2}{n}=\cfrac{\sum_i x_i^2}{n}- 2\overline{x}^2+\overline{x}^2=\cfrac{\sum_i x_i^2}{n}- \overline{x}^2$$

Ejemplo

Vamos a desarrollar el cálculo de la fórmula simplificada para el ejemplo anterior:

 
\(x_i\)
\((x_i^2\)
1 1
3
9
4
16
4
16
5
25
7
49
8
64
9
81
9
81
10
100
Suma=60
Suma=442

Y finalmente sustituimos en la fórmula simplificada:

$$s^2=\cfrac{\sum_ix_i^2}{n}-\overline{x}^2=\cfrac{442}{10}-6^2=8.2\ puntos^2$$

El resultado es, como debe ser, el mismo. Pero en lugar de desarrollar tres columnas de cálculo, hemos desarrollado únicamente dos. 

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Varianza muestral" (en línea)   Enlace al artículo
Última actualización: 25/11/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Individuo (unidad estadística)

Un individuo o unidad estadística es cada uno de los elementos que forma una población estadística. A pesar que el término individuo se refiere en su acepción habitual a personas individuales, en estadística un individuo puede referirse a cualquier ser vivo, vegetal o animal. Los individuos o unidad...

Análisis de trayectorias

El análisis de trayectorias es una metodología estadística de carácter general que describe y cuantifica las relaciones directas e indirectas entre variables de un sistema, siguiendo para ello las complejas trayectorias relacionales de una variable a otra, teniendo en cuenta también la influencia de...

Promedio intercuartil

El promedio intercuartil es la media aritmética simple de los datos comprendidos entre el primer y tercer cuartil, esto es, del 50% central de los datos. Se trata por tanto de una media recortada al 50%. Su ventaja como medida de tendencia central es su robustez frente a la presencia de valores atíp...

Datos no agrupados

Puede interesarte también: Datos agrupados.  En estadística, los datos no agrupados son aquellos que no se han reunido en una tabla de frecuencias, en base a ciertas categorías, valores de variable o intervalos de clase, y que por tanto consisten simplemente en la lista de datos cualitativos o...