Recta de regresión de mínimos cuadrados

Una recta de regresión es una recta que se ajusta a una distribución de datos bidimensional \((x_i,y_i)\), tomando como variable independiente una de las variables de la distribución, la que se considera variable explicativa (por convenio, se denominará la variable \(x\) )  y relacionándola con la otra variable \(y\) , que se considera variable dependiente o explicada. Por ejemplo, una recta de regresión puede utilizarse para relacionar las calificaciones \(x_i\) de un grupo de alumnos en una asignatura con las horas dedicadas al estudio \(y_i\) por dichos alumnos. Dado que generalmente, la distribución de datos bidimensional no sigue una relación lineal perfecta, el objetivo es especificar la recta \(\hat{y}=a+bx\) que mejor se ajuste a los datos, en otras palabras, estimar los parámetros \(a\) y \(b\)  de la recta, para lo cual existen diferentes métodos de estimación, aunque el más utilizado es el método de mínimos cuadrados. 

Estimados los parámetros de la recta de regresión, esta puede utilizarse para realizar una predicción o estimación de la variable dependiente (en el anterior ejemplo, la calificación obtenida) para cada valor de la variable independiente (el número de horas de estudio) de esta forma: \(\hat{y_i}=a+bx_i\). Sin embargo en cada predicción se produce un error, que es la diferencia entre el valor real que toma para cada par de datos \(x_i,y_i)\) de la distribución bidimensional la variable dependiente y el valor de la predicción:  \(e_i=y_i-\hat{y_i}=y_i-(a+bx_i)\). El método más utilizado de ajuste de la recta de regresión es el de los mínimos cuadrados, que lo que persigue es minimizar la suma de los errores al cuadrado (al cuadrado, con el objetivo de que los errores no se compensen entre sí). Es decir, lo que se persigue en el método de mínimos cuadrados es calcular los valores de \(a\) y \(b\) que minimizan \(\sum e_i^2\):

$$ min_{a,b} \sum e_i^2$$

Puede demostrarse matemáticamente que los valores \(a\) y \(b\)  que minimizan la suma de errores al cuadrado, y que por tanto se considera que definen la recta que mejor se ajusta a los datos, es decir, la recta de regresión de mínimos cuadrados, son: 

$$b=\cfrac{s_{xy}}{s_x^2}$$

$$a=\overline{y}- b\overline{x}$$

siendo respectivamente \(\overline{x},\overline{y},s_{xy}, s_x^2\) la media de la variable \(x\), la media de la variable \(y\), la covarianza entre ambas variable y la varianza de \(x\).

Ejemplo

  Alturas( x)    Pesos (y)     xy      x²
172 77 13244 29584
178 84 14952 31684
183 88 16104 33489
169 73 12337 28561
190 97 18430 36100
175 80 14000 30625
188 94 17672 35344
181 86 15566 32761
167 71 11857 27889
195 103 20085 38025
1798 853 154247 324062


Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Recta de regresión de mínimos cuadrados" (en línea)   Enlace al artículo
Última actualización: 01/12/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Tipificación

La tipificación o estandarización es la operación que sustrae a cada valor de una variable cuantitativa la media de la distribución y divide el resultado entre la desviación típica. Los valores resultante se denominan valores z.  El objetivo es reducir los datos a una escala típica o estándar d...

Nivel de significación

En estadística, el nivel de significación o nivel de significancia (conocido también como nivel  \(\alpha\) o nivel alfa) es el umbral de probabilidad máxima que se fija para la ocurrencia de una evidencia, generalmente el valor de un estadístico muestral, que conduce a afirmar que la evidencia...

Diseño cuasiexperimental (cuasiexperimento)

Un diseño cuasiexperimental o  cuasiexperimento es un tipo de investigación estadística que examina la influencia de diferentes factores en una variable de modo que los elementos de estudio están preestablecidos, por lo que el investigador no puede desarrollar la aleatorización o asignación ale...

Gráfico de puntos (diagrama de puntos)

Un gráfico de puntos o diagrama de puntos (en inglés, dot plot) es un gráfico estadístico que representa un número pequeño de datos (por dar una cifra concreta, hasta 20) relativos a una variable estadística continua. Para ello se  construye una escala simple en forma de línea horizontal que ab...