Cómo hacer un Histograma con Excel y EasyFit

En el siguiente artículo mostraremos cómo hacer un histograma aplicado a una serie de datos a granel. Para ello utilizaremos 2 programas computacionales frecuentemente utilizados para estos propósitos: Excel y EasyFit.

Recordemos que un histograma consiste en una representación gráfica  a través de un diagrama de barras, donde cada barra es proporcional a la frecuencia de los valores representados. El histograma como herramienta de análisis gráfica que resume información nos ayuda para tener una primera visión de si, por ejemplo, la distribución de los datos se asemeja al comportamiento de una función de probabilidad conocida.

Consideremos los siguientes 40 datos a granel que consideran la medición de un cierto fenómeno de interés:

datos-a-granel-para-histrog

A continuación generaremos una tabulación de la información utilizando algunos conceptos estadísticos básicos. Primero determinaremos la cantidad de clases “k” para lo cual se pueden utilizar múltiples criterios y donde se selecciona aquel que otorga una cantidad de clases “razonable”. En nuestro ejemplo consideraremos k=6 clases.

cantidad-de-clases-histogra

Luego determinamos el Rango “R” que consiste en la diferencia entre la mayor y menor observación de los datos a granel. R=Máximo(Xi)-Mínimo(Xi)=2,8-0,5=2,3.

Ahora determinamos la amplitud de cada clase “a”. Notar que el concepto de “Unidad” esta relacionado con los datos que se disponen que en nuestro ejemplo consideran un decimal, en consecuencia se define como unidad a 0,1.

amplitud-histograma

Finalmente calculamos el Límite Inferior (LI) y Límite Superior (LS) utilizando las siguientes fórmulas:

  • Límite Inferior (LI) = Mínimo Dato (Xi) – 0,5 «Unidad»
  • Límite Superior (LS) = Limite Inferior de la clase + amplitud

De acuerdo a lo anterior estamos en condiciones de construir una tabla que resume la información de los datos proporcionados a granel:

datos-tabulados-histograma

Notar, por ejemplo, que para la primera clase el Límite Inferior (LI=0,45) se obtiene restando al Mínimo Dato (en el ejemplo el dato 9 con valor 0,5) menos 0,5*(0,1).

El Límite Superior de la primera clase (LS=0,85) se obtiene sumando al Límite Inferior (LI=0,45) la amplitud obtenida previamente (a=0,4).

Adicionalmente los valores en la columna etiquetada con “Mi” representa la marca de la clase (por ejemplo en M1 es igual a (0,45+0,85)/2=0,65).

En la columna n se contabilizan las observaciones que corresponden a la clase lo que se denomina como frecuencia absoluta (por ejemplo en la clase 1 se observan 3 datos que están en el intervalo entre 0,45 y 0,85).

En f se considera la frecuencia relativa, es decir, la proporción de datos sobre el total de la muestra que pertenecen a la clase (por ejemplo, para la clase 1 es f=3/40).

Finalmente en N y F se representa la frecuencia absoluta acumulada y frecuencia relativa acumulada, respectivamente.

Si generamos un gráfico de columna en Excel con los valores de la frecuencia relativa de cada clase y como etiqueta de datos (línea horizontal) la marca de clase, se obtiene lo siguiente:

grafico-histograma-excel-2

Cabe destacar que existe una serie de software estadístico que permite procesar este tipo de análisis de forma rápida e intuitiva. A continuación mostraremos cómo generar un histograma utilizando EasyFit el cual esta disponible en una versión de evaluación de 30 días y en una licencia académica de 69 Euros. Para ello copiamos y pegamos los 40 datos en una columna de la interfaz del programa y luego seleccionamos el icono con forma de rayo.

easyfit-datos-a-granel

A continuación se desplegara el menú a continuación donde sólo será necesario seleccionar OK.

easyfit-analisis-distribuci

El programa ejecutará una rápida rutina donde ajustará un importante número de distintas funciones de probabilidad teóricas a los datos proporcionados. Por ejemplo, en el siguiente gráfico mostramos el histograma de los datos (que por cierto es consistente con lo que hemos obtenido previamente en Excel) y donde se ha ajustado una distribución normal a los datos (línea color rojo).

Claramente la función de densidad de probabilidad ajustada es una aproximación a la distribución de los datos y resulta de interés decidir si una distribución particular es representativa de la naturaleza de los datos. Para esto es necesario realizar un Test de Bondad de ajuste sobre lo cual nos referiremos en un próximo artículo.

distribucion-normal-histogr

Rating: 5.0. From 1 vote.
Please wait...

, , , ,

Sin Comentarios aun. Se el primero en comentar!

Deja un comentario