Histograma

tomate_histograma.png

Imagen: Histograma de los pesos en gramos de una muestra de 100 tomates. En el intervalo 200gr-220gr se encuentran 6 tomates. El histograma puede utilizarse para posicionar el centro de la distribución, en este caso alrededor de 260gr aproximadamente, y visualizar la amplitud total de la distribución.

Un histograma es una representación gráfica de una variable estadística continua (es decir, que toma muchos diferentes valores) adecuada para aquellos casos en el tamaño de muestra o número de datos es alto, con generalidad puede decirse que mayor que 20, agrupando para ello los datos en intervalos de clase consecutivos y representando las frecuencias de dichos intervalos a través de barras contiguas. Por ejemplo, un histograma es un diagrama apropiado para representar las alturas o pesos de una muestra grande de jóvenes, o las rentas percibidas por una población de familias. No sería un gráfico adecuado para, por ejemplo, representar el número de hermanos por familia,  por ser en este caso la variable discreta (con pocos valores diferentes, sería más conveniente para esa situación un diagrama de barras) o los tiempos de una carrera de 1.500m de 12 atletas, por no disponer en este caso de un número insuficiente de datos (sería más oportuno un diagrama de puntos).

Una muestra grande de datos referidos a una variable continua resulta difícil de interpretar por sí sola, ya que agregados individualmente, los datos constituirán un conjunto heterogéneo e irregular. Sin embargo, a partir de la agrupación de los datos en intervalos, el histograma, construido de forma adecuada, nos ayudará a conocer como se distribuyen los datos a lo largo de los intervalos, visualizando características de los datos como su tendencia central y su dispersión. 

Conceptos relacionados: amplitud de clase, frecuencia de clase, límite de clase, marca de clase

El punto de partida: el número de intervalos

El punto de partida para la construcción de un histograma consiste en la determinación del número de intervalos de clase en los que se agruparán los datos. Para ello debe tenerse en cuenta que cuanto menor sea el número de intervalos de clase, mayor será la pérdida de información respecto a los datos originales. Más concretamente:

  • por un lado, un número excesivamente alto de intervalos, generalmente más de 15 o 20, no resumirá los datos de forma adecuada, de modo que la información resultante seguirá siendo igual o similarmente confusa a la que poseíamos con los datos originales  o no agrupados;
  • por otro lado, un número muy bajo, generalmente inferior a 5,  puede derivar en una excesiva simplificación o resumen de los datos, con la consiguiente pérdida de información relevante.

Se han establecido diferentes reglas o fórmulas para el cálculo del número de intervalos más adecuado, generalmente como función creciente del tamaño de la muestra. Entre estas, la mñas utilizada es la regla de Sturges que calcula el número de intervalos de clase $k$ de esta forma, redondeando el resultado al siguiente número entero: 

$$k=\cfrac{\ln k}{\ln 2}+1$$

Construcción de los intervalos 

Una vez determinado el número de intervalos de clase en los que se van a agrupar los datos, los pasos a desarrollar son los siguientes:

  • se calcula el recorrido o rango R de los datos, es decir, la diferencia entre el valor mayor y el valor menor de los datos;
  • se divide el recorrido R entre el número de intervalos k, siendo el resultado la amplitud de clase teórica de cada intervalo de clase;
  • se redondea por exceso dicha amplitud a un número significativo, por ejemplo 10, 20, 50, ...;
  • se multiplica dicha amplitud final por el número de intervalos, obteniendo de esta forma el recorrido de los intervalos del histograma;
  • el exceso de recorrido entre este recorrido final y el recorrido real se reparte de forma más o menos equitativa por debajo del valor menor de los datos y por encima del valor mayor (para mayor información, consulta amplitud de clase);
  • se comienza a construir los intervalos desde el límite inferior de clase del primer intervalo, que coincide con el valor inferior disminuido por el exceso de recorrido considerado, hasta llegar al último intervalo, formando en total $k$ intervalos.

Agrupamiento de los datos

Una vez construidos los intervalos, es hora de agrupar los datos en estos. Para ello debe tenerse en cuenta que por convenio, se supone que los intervalos de clase son  abiertos por la derecha y cerrados por la izquierda, es decir el intervalo de clase a-b se considera de esta forma:

$$[a,b)$$

A veces para evitar dicha suposición y dejar claro qué dato entra en cada intervalo, estos se establecen de forma consecutiva pero sin valores coincidentes: por ejemplo, a la hora de agrupar edades pueden establecerse como intervalos de clase 0-4, 5-9, 10-14, 15-19, ...

Recomendaciones generales sobre los intervalos

  • Los intervalos deben ser disjuntos, esto es, no deben solaparse.
  • Como regla general, los intervalos serán de amplitud constante, pero en ciertas situaciones es mejor que se de amplitud diferente.
  • Los extremos de los intervalos serán preferiblemente números redondos.

Ejemplo

Se han recogidos los datos sobre la altura de 100 jóvenes del sexo femenino en una región (cm):

170 174 170 168 168 163 184 173 164 168
169 164 163 173 166 169 164 176 171 171
165 178 179 161 180 169 170 157 177 168
172 174 163 169 168 178 180 184 172 172
179 172 163 177 158 163 171 174 167 161
179 173 183 169 166 163 175 169 167 169
167 161 169 181 165 156 167 170 170 170
167 170 174 173 170 168 165 170 173 157
166 170 159 176 166 169 171 172 174 178
173 178 174 176 171 162 166 162 165 164

Buscamos los valores mínimo y máximo entre los datos: 156cm (mínimo)  y 184cm (máximo).

Calculamos el recorrido o diferencia los valores máximo y mínimo: R=184-156=28.

Aplicamos la regla de Sturges para calcular el número de intervalos más adecuado para este número de datos:

$$k=\cfrac{ln 100}{ln 2}+1=7.64 \rightarrow 8$$

Calculamos la amplitud teórica de cada intervalo dividiendo el recorrido entre el número de intervalos fijado. Dado que es conveniente que la amplitud de los intervalos sea un número redondo, redondeamos la amplitud teórica por exceso, para poder cubrir todo el recorrido:

$$h=\cfrac{28}{8}=3.5 \rightarrow 4$$

De este modo, debemos construir 8 intervalos de amplitud 4cm, por lo que los intervalos cubren en total 32cm. Como el recorrido real es de 28cm, añadiremos 2cm por debajo del valor mínimo y 2cm por encima del valor máximo, de modo que los intervalos comenzarán en 156-2=154cm y terminarán en 184+2=186cm. Así pues, los intervalos serán: 154-158, 158-162, 162-166, 166-170, 170-174, 174-178, 178-182, 182-186. No nos queda más que realizar el conteo de datos para cada intervalo para obtener las frecuencias de clase que serán las alturas de las barras del histograma:

Rplot01.png


Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Histograma" (en línea)   Enlace al artículo
Última actualización: 27/08/2024

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Cuasivarianza (varianza corregida)

La cuasivarianza o varianza muestral corregida es una fórmula de estimación de la varianza poblacional que corrige el sesgo que tiene la varianza muestral respecto a dicha varianza poblacional. Si se calcula la varianza muestral de acuerdo a esta fórmula: $$s^2=\cfrac{\sum(x_i-\overline{x})^2}{n}$...

Distribución muestral de un estimador

La distribución muestral de un estimador, también llamada distribución de muestreo o distribución en el muestreo de un estimador o estadístico, es la distribución de probabilidad de los valores que puede tomar un estimador concreto en el caso de que se tome una muestra aleatoria.  Cuando se to...

Variable respuesta

En un diseño experimental, la variable respuesta es la que se considera y observa como dependiente y bajo la influencia de las variables o factores controlados por el investigador. Puede interesarte también Criterio (variable) ...

Mediana estadística

Imagen: La mediana se muestra en el histograma como el valor que separa el 50% de los datos a cada lado, mostrando de este modo el "centro" de la distribución que puede tomarse como medida representativa del conjunto de datos.  En estadística, la mediana (Me) es el valor de la variable que s...