Histograma

tomate_histograma.png

Imagen: Histograma de los pesos en gramos de una muestra de 100 tomates. En el intervalo 200gr-220gr se encuentran 6 tomates. El histograma puede utilizarse para posicionar el centro de la distribución, en este caso alrededor de 260gr aproximadamente, y visualizar la amplitud total de la distribución.

Un histograma es una representación gráfica de una variable estadística continua (es decir, que toma muchos diferentes valores) adecuada para aquellos casos en el tamaño de muestra o número de datos es alto, con generalidad puede decirse que mayor que 20, agrupando para ello los datos en intervalos de clase consecutivos y representando las frecuencias de dichos intervalos a través de barras contiguas. Por ejemplo, un histograma es un diagrama apropiado para representar las alturas o pesos de una muestra grande de jóvenes, o las rentas percibidas por una población de familias. No sería un gráfico adecuado para, por ejemplo, representar el número de hermanos por familia,  por ser en este caso la variable discreta (con pocos valores diferentes, sería más conveniente para esa situación un diagrama de barras) o los tiempos de una carrera de 1.500m de 12 atletas, por no disponer en este caso de un número insuficiente de datos (sería más oportuno un diagrama de puntos).

Una muestra grande de datos referidos a una variable continua resulta difícil de interpretar por sí sola, ya que agregados individualmente, los datos constituirán un conjunto heterogéneo e irregular. Sin embargo, a partir de la agrupación de los datos en intervalos, el histograma, construido de forma adecuada, nos ayudará a conocer como se distribuyen los datos a lo largo de los intervalos, visualizando características de los datos como su tendencia central y su dispersión. 

Conceptos relacionados: amplitud de clase, frecuencia de clase, límite de clase, marca de clase

El punto de partida: el número de intervalos

El punto de partida para la construcción de un histograma consiste en la determinación del número de intervalos de clase en los que se agruparán los datos. Para ello debe tenerse en cuenta que cuanto menor sea el número de intervalos de clase, mayor será la pérdida de información respecto a los datos originales. Más concretamente:

  • por un lado, un número excesivamente alto de intervalos, generalmente más de 15 o 20, no resumirá los datos de forma adecuada, de modo que la información resultante seguirá siendo igual o similarmente confusa a la que poseíamos con los datos originales  o no agrupados;
  • por otro lado, un número muy bajo, generalmente inferior a 5,  puede derivar en una excesiva simplificación o resumen de los datos, con la consiguiente pérdida de información relevante.

Se han establecido diferentes reglas o fórmulas para el cálculo del número de intervalos más adecuado, generalmente como función creciente del tamaño de la muestra. Entre estas, la mñas utilizada es la regla de Sturges que calcula el número de intervalos de clase $k$ de esta forma, redondeando el resultado al siguiente número entero: 

$$k=\cfrac{\ln k}{\ln 2}+1$$

Construcción de los intervalos 

Una vez determinado el número de intervalos de clase en los que se van a agrupar los datos, los pasos a desarrollar son los siguientes:

  • se calcula el recorrido o rango R de los datos, es decir, la diferencia entre el valor mayor y el valor menor de los datos;
  • se divide el recorrido R entre el número de intervalos k, siendo el resultado la amplitud de clase teórica de cada intervalo de clase;
  • se redondea por exceso dicha amplitud a un número significativo, por ejemplo 10, 20, 50, ...;
  • se multiplica dicha amplitud final por el número de intervalos, obteniendo de esta forma el recorrido de los intervalos del histograma;
  • el exceso de recorrido entre este recorrido final y el recorrido real se reparte de forma más o menos equitativa por debajo del valor menor de los datos y por encima del valor mayor (para mayor información, consulta amplitud de clase);
  • se comienza a construir los intervalos desde el límite inferior de clase del primer intervalo, que coincide con el valor inferior disminuido por el exceso de recorrido considerado, hasta llegar al último intervalo, formando en total $k$ intervalos.

Agrupamiento de los datos

Una vez construidos los intervalos, es hora de agrupar los datos en estos. Para ello debe tenerse en cuenta que por convenio, se supone que los intervalos de clase son  abiertos por la derecha y cerrados por la izquierda, es decir el intervalo de clase a-b se considera de esta forma:

$$[a,b)$$

A veces para evitar dicha suposición y dejar claro qué dato entra en cada intervalo, estos se establecen de forma consecutiva pero sin valores coincidentes: por ejemplo, a la hora de agrupar edades pueden establecerse como intervalos de clase 0-4, 5-9, 10-14, 15-19, ...

Recomendaciones generales sobre los intervalos

  • Los intervalos deben ser disjuntos, esto es, no deben solaparse.
  • Como regla general, los intervalos serán de amplitud constante, pero en ciertas situaciones es mejor que se de amplitud diferente.
  • Los extremos de los intervalos serán preferiblemente números redondos.

Ejemplo

Se han recogidos los datos sobre la altura de 100 jóvenes del sexo femenino en una región (cm):

170 174 170 168 168 163 184 173 164 168
169 164 163 173 166 169 164 176 171 171
165 178 179 161 180 169 170 157 177 168
172 174 163 169 168 178 180 184 172 172
179 172 163 177 158 163 171 174 167 161
179 173 183 169 166 163 175 169 167 169
167 161 169 181 165 156 167 170 170 170
167 170 174 173 170 168 165 170 173 157
166 170 159 176 166 169 171 172 174 178
173 178 174 176 171 162 166 162 165 164

Buscamos los valores mínimo y máximo entre los datos: 156cm (mínimo)  y 184cm (máximo).

Calculamos el recorrido o diferencia los valores máximo y mínimo: R=184-156=28.

Aplicamos la regla de Sturges para calcular el número de intervalos más adecuado para este número de datos:

$$k=\cfrac{ln 100}{ln 2}+1=7.64 \rightarrow 8$$

Calculamos la amplitud teórica de cada intervalo dividiendo el recorrido entre el número de intervalos fijado. Dado que es conveniente que la amplitud de los intervalos sea un número redondo, redondeamos la amplitud teórica por exceso, para poder cubrir todo el recorrido:

$$h=\cfrac{28}{8}=3.5 \rightarrow 4$$

De este modo, debemos construir 8 intervalos de amplitud 4cm, por lo que los intervalos cubren en total 32cm. Como el recorrido real es de 28cm, añadiremos 2cm por debajo del valor mínimo y 2cm por encima del valor máximo, de modo que los intervalos comenzarán en 156-2=154cm y terminarán en 184+2=186cm. Así pues, los intervalos serán: 154-158, 158-162, 162-166, 166-170, 170-174, 174-178, 178-182, 182-186. No nos queda más que realizar el conteo de datos para cada intervalo para obtener las frecuencias de clase que serán las alturas de las barras del histograma:

Rplot01.png


Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Histograma" (en línea)   Enlace al artículo
Última actualización: 27/08/2024

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta

Distribución mesocúrtica, distribución platicúrtica y distribución leptocúrtica

El análisis y medida de la curtosis permite distinguir entre distribuciones mesocúrticas, leptocúrticas y platicúrticas. Una distribución mesocúrtica es una distribución que posee un nivel de curtosis medio (meso), esto es, similar al de una distribución normal, que posee un nivel de curtosis f...

Muestreo de bola de nieve

El muestreo de bola de nieve (en inglés, snowball sampling) es un tipo de muestreo de tipo no probabilístico, especialmente utilizado en investigación cualitativa, cuando resulta díficil acceder a las personas pertenecientes al colectivo objeto de estudio, por hallarse estas en situación de invisibi...

Población finita

Una población finita es una población estadística en la que todos sus elementos se pueden enumerar hasta formar un número total determinado.  Se contrapone al concepto de población infinita. Por ejemplo, son poblaciones finitas el conjunto de alumnos de un colegio; los habitantes empadronados e...

Escalas numéricas (estadística)

En estadística, las escalas numéricas son las escalas de medida que dan lugar a variables cuantitativas, comprendiendo tanto la escala de intervalo como la escala de razón. ...