Ejemplo de una Regresión Lineal Múltiple para un Pronóstico con Excel y Minitab

Los métodos de pronósticos de relaciones causales establecen que el comportamiento o variación de una variable de interés se puede explicar a través de una o más variables que se presume tienen un efecto significativo sobre ella. Tal sería el caso de si por ejemplo se intenta explicar las ventas de casas en un país a través de variables como la tasa de interés promedio para créditos hipotecarios, PIB per cápita, subsidios del estado para adquisición de nuevas viviendas, crecimiento demográfico, entre otras.

Ejemplo de una Regresión Lineal Múltiple

En el siguiente artículo desarrollaremos un pronóstico a través de una regresión lineal múltiple que en términos generales se puede representar por Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\cdots +\beta_{k}X_{k} donde Y es la variable dependiente, X_{1},X_{2},\cdots ,X_{k} las variables independientes y \beta _{0},\beta _{1},\beta _{2},\cdots,\beta _{k} los coeficientes de la regresión. En particular consideraremos en el siguiente ejemplo una variable dependiente (Ganancias en Millones de $) y 2 variables explicativas o independientes (Número de Vendedores y Precio del Producto $), es decir, Y=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}, donde X_{1} es el N° de Vendedores y X_{2} el Precio del Producto ($). La información se resume en la tabla a continuación:

datos-regresion-lineal-mult

En el artículo Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda se detalla el procedimiento para obtener una regresión lineal simple con una variable explicativa, lo cual se favorece con la utilización de las herramientas que provee Excel como se muestra en los siguientes gráficos:

graficos-regresion-lineal-s

¿Qué sucede si ahora buscamos explicar las Ganancias en Millones de $ a través del Número de Vendedores y Precio del Producto $? (ambas variables independientes o explicativas en forma simultanea). Existen varias alternativas para lograr lo anterior. Un procedimiento sencillo es utilizar la herramienta de Análisis de Datos de Excel cuya implementación se muestra a continuación:

estadisticas-regresion-mult

Otra alternativa es hacer uso del software estadístico Minitab 17. El siguiente tutorial muestra la implementación computacional:

salida-regresion-multiple-m

La diferencia en los coeficientes de la regresión de ambos procedimientos obedece sólo a aspectos de visualización de los resultados. Luego, la interpretación es la siguiente: las variables independientes Número de Vendedores y Precio del Producto $ explican el 97,23% de la variación de las Ganancias en Millones de $. Notar que al considerar 2 variables independientes el coeficiente de determinación r cuadrado aumenta en comparación a las alternativas que consideran sólo una variable independiente o explicativa.

¿Quieres tener el archivo Excel con la Regresión Lineal Múltiple desarrollada en este ejemplo?

[sociallocker]

MUCHAS GRACIAS!. DESCARGA AQUÍ EL ARCHIVO

[/sociallocker]

Cómo se relaciona el Coeficiente de Correlación de Pearson (r) y el Coeficiente de Determinación r Cuadrado (r²)

El coeficiente de correlación de Pearson o r es una prueba estadística que permite analizar la relación entre dos variables medidas en un nivel por intervalos o de razón, donde r mide el grado de asociación lineal entre dos variables X e Y. La prueba en sí no considera a una como independiente y a otra como dependiente, ya que no se trata de una prueba que evalúa causalidad. El coeficiente r de Pearson se estima de acuerdo a la siguiente fórmula:

r pearson

El coeficiente r de puede variar de -1 a 1, donde el signo indica la dirección de la correlación y el valor numérico, la magnitud de la correlación. En este contexto se resumen algunos criterios de interpretación:

  • -1,00 = Correlación negativa perfecta
  • -0,90 = Correlación negativa muy fuerte
  • -0,75 = Correlación negativa considerable
  • -0,50 = Correlación negativa media
  • -0,10 = Correlación negativa débil
  • 0,00  = No existe correlación lineal alguna entre las variables
  • 0,10  = Correlación positiva débil
  • 0,50  = Correlación positiva media
  •  0,75 = Correlación positiva considerable
  •  0,90  = Correlación positiva muy fuerte
  • 1,00  = Correlación positiva perfecta

A continuación se presentan algunos ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación de Pearson (poblacional).

diagramas-correlacion-de-pe

Cuando el coeficiente r de Pearson se eleva al cuadrado, el resultado indica el porcentaje de la variación de una variable debido a la variación de la otra y viceversa. Es decir, el coeficiente de determinación, r al cuadrado o r², es la proporción de la variación en Y explicada por X. Puede adoptar cualquier valor entre 0 y 1, inclusive.

Ejemplo: Una empresa comercial tiene establecimientos en varias ciudades de Chile. El gerente comercial planea lanzar al aire un anuncio comercial por radio en las estaciones locales, al menos dos veces antes de una promoción (liquidación) que empezará el Sábado y terminará el Domingo. Planea tener las cifras de las ventas de grabadoras de vídeos (Blu-Ray) del Sábado y Domingo en sus diferentes locales y compararlas con el número de veces que apareció el comercial en la radio. El objetivo fundamental de la investigación es determinar si existe relación entre el número de veces que se transmitió el anuncio y las ventas de sus productos. Los datos son:

correlacion-anuncios-y-vent

Con la información de la tabla anterior se desea responder las siguientes interrogantes:

1. ¿Cuál es la variable dependiente?. La variable dependiente son las Ventas.

2. Trace el diagrama o gráfico de dispersión.

grafico-de-dispersion
3. ¿Parece haber alguna relación entre X e Y?. Si existe una fuerte correlación positiva.
4. Determine el coeficiente de correlación. Para ello utilizaremos la herramienta de Análisis de Datos la cual se encuentra disponible en el menú de Datos de Excel. Luego seleccionamos Regresión según se observa a continuación:

herramienta-analisis-de-dat

En las opciones de regresión seleccionamos los datos de Ventas de Sábado y Domingo como Rango Y de entrada (variable dependiente) y los datos del N° de Anuncios corresponderá al Rango X de entrada (variable independiente).

analisis-de-datos-excel

Al seleccionar Aceptar se obtienen las estadísticas de la regresión donde el coeficiente de correlación de Pearson o r es de 0,93 (aproximado) y en consecuencia el coeficiente de determinación r² es de r²=(0,929516)²=0,864.

estadisticas-de-la-regresio

Notar que un procedimiento alternativo para obtener el coeficiente de determinación r² es mediante la incorporación de una línea de tendencia lineal en el diagrama de dispersión tal cual abordamos en el artículo Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda.

grafico-lineal-r-cuadrado

5. Evalúe la intensidad de la relación entre X e Y. 0,93 indica una correlación positiva fuerte entre el número de veces que sale publicado el anuncio, y las ventas.

Relación entre la Desviación Absoluta Media (MAD) y la Desviación Estándar del Error (σ)

El concepto de error en una proyección de demanda tiene que ver con la diferencia entre el valor real (observado) y el valor pronosticado. Esto da origen a errores de sobre estimación o sub estimación de la demanda real cuando dichos errores son negativos o positivos, respectivamente. En este contexto cuando los errores que ocurren en el pronóstico de demanda tienen una distribución normal (el caso más común) la Desviación Absoluta Media (MAD) se relaciona con la Desviación Estándar del Error (σ) de la siguiente forma:

relacion-mad-y-desviacion-e

Para ilustrar sobre esta relación consideremos el ejemplo utilizado en el artículo donde calculamos el Error Porcentual Absoluto Medio (MAPE) cuyos pronósticos Ft se obtienen al ajustar una Regresión Lineal a los datos reales de la demanda.

tabla-mape-mad-y-ts

Notar que el MAD calculado a Diciembre es de 36,1[u]. Luego para corroborar el cumplimiento de la relación aproximada entre el MAD y σ se requiere verificar si los errores del pronóstico se distribuyen normal. Para esta evaluación utilizaremos el software Easyfit y su herramienta de ajuste de distribuciones. Es importante en este punto destacar que es deseable contar con más datos para realizar el ajuste, no obstante, nos interesa mostrar el procedimiento.

ajustar-distribucion-normal

El programa nos entrega el siguiente histograma donde la curva de color rojo representa el comportamiento de una distribución normal (teórica). Adicionalmente en las estadísticas descriptivas se puede obtener que el error medio (considerando la naturaleza del signo del error) es -0,0833 (aproximado) lo cual constituye un elemento a favor de la relación que deseamos verificar.

ajuste-distribucion-normal-

Si volvemos a los resultados que da origen la planilla Excel podemos calcular la Desviación Estándar del Error σ (celda color naranjo) que es 45,50[u] a través de la fórmula =DESVEST(J3:J14).

calculo-desviacion-estandar

Con estos resultados corroboramos si efectivamente 1 MAD es equivalente (aproximadamente) a 0,8 desviaciones estándar del error. La conclusión es que para los datos de este ejemplo dicha relación es efectiva (por cierto aproximada) por lo cual luego de verificar que los errores del pronóstico se distribuyen normal (razonablemente) bastaría con calcular el MAD para poder generar una estimación razonable de la desviación estándar del error (o viceversa).

mad-y-sigma

Error Porcentual Absoluto Medio (MAPE) en un Pronóstico de Demanda

El Error Porcentual Absoluto Medio (MAPE o Mean Absolute Percentage Error) es un indicador del desempeño del Pronóstico de Demanda que mide el tamaño del error (absoluto) en términos porcentuales. El hecho que se estime una magnitud del error porcentual lo hace un indicador frecuentemente utilizado por los encargados de elaborar pronósticos debido a su fácil interpretación. Incluso es útil cuando no se conoce el volumen de demanda del producto dado que es una medida relativa. Por ejemplo, afirmar que el «error porcentual promedio es de un 4%» es más fácil de comprender que cuando se dice «el error absoluto medio por período es de 1.000 unidades» (que sería la información que podríamos obtener del MAD y que en abstracto no provee información si esta magnitud de error es aceptable o no).

La fórmula para el cálculo del MAPEError Porcentual Absoluto Medio es:

formula-mape

La siguiente imagen representa una serie de tiempo de 12 meses donde At representa la demanda real de un producto cualquiera y Ft el pronóstico utilizando una Regresión Lineal. La ecuación de la regresión ajustada es y=5,6993*x+217,12 donde la variable y representa la demanda y la variable x el período (mes).

regresion-lineal-mape

El detalle de los resultados se presenta a continuación donde en la columna D se muestran los datos reales y en la columna E los pronósticos. Por ejemplo para el mes de Enero (mes 1) el pronóstico se obtiene como F1=5,6993*1+217,12=223 (aproximado arbitrariamente al entero más cercano).

excel-calculo-mape

Luego obtenemos el error porcentual absoluto para cada mes del período de evaluación (celdas amarillas de la tabla anterior). Notar que en el ejemplo dicho cálculo correspondería para el mes de Enero en la fórmula F3/D3 donde el numerador (F3) es el error absoluto del período y el denominador (D3) la demanda real del mes. Finalmente se repite el procedimiento para cada uno de los meses lo cual se facilita al hacer uso de una planilla Excel.

calculo-mape

En conclusión el Error Porcentual Absoluto Medio es de un 14,56%. De forma complementaria se puede calcular el MAD y la Señal de Rastreo (TS) de modo de tener un mayor número de indicadores para interpretar de forma adecuada el desempeño del pronóstico.

tabla-mape-mad-y-ts

Es conveniente graficar tanto el comportamiento del MAD como la Señal de Rastreo (TS) para facilitar la interpretación de los resultados. A continuación se presentan los resultados:

grafico-mad-y-ts

Notar que la magnitud media absoluta del error aumenta en los últimos períodos. En cuanto al comportamiento de la señal de seguimiento o TS si bien ésta varía en el rango comúnmente aceptable de [-4,4] MADs, las sub estimaciones sucesivas del valor real de la demanda de los meses de Agosto, Septiembre y Octubre marcan una tendencia creciente en su comportamiento, lo cual se compensa luego con las sobre estimaciones de los meses de Noviembre y Diciembre. A continuación un vídeo de nuestro canal de Youtube con la implementación en Excel del ejemplo descrito en este artículo:

¿Quieres tener el archivo Excel con el cálculo del Error Porcentual Absoluto Medio (MAPE) de este Ejemplo?

[sociallocker]

MUCHAS GRACIAS!. DESCARGA AQUÍ EL ARCHIVO

[/sociallocker]

Interpretación de la Señal de Rastreo de un Pronóstico de Demanda

La Señal de Rastreo (conocida también como Tracking Signal o TS) es una medida de desempeño que permite medir la desviación del pronóstico respecto a variaciones en la demanda. Análogamente se puede interpretar como el número de MAD (Desviación Media Absoluta o Mean Absolute Deviation) que el pronóstico está sobre o bajo la demanda real. La fórmula para calcular la Señal de Rastreo o Señal de Seguimiento corresponde a:

formula-sr

Los límites aceptables para la Señal de Rastreo dependen del tamaño de la demanda pronosticada (los artículos de volumen alto o ingreso alto se deben vigilar con frecuencia) y la cantidad de tiempo del personal disponible (los límites aceptables más estrechos hacen que mayor cantidad de pronósticos estén fuera de los límites y por lo tanto requieren de más tiempo para investigarlos). No obstante usualmente se considera como límites aceptables una Señal de Rastreo que varía en el rango de [-4,4] MAD.

grafico-mad-normal

La siguiente tabla mide el porcentaje del área de una distribución normal de media cero cubierta en el rango +- # de MADs.

porcentaje-datos-rango-ts

Para una correcta interpretación de la Señal de Rastreo consideremos el siguiente ejemplo: La empresa de softwares Megasoft tiene disponibles los datos de demanda de notebooks de los últimos 2 años, divididos en 8 trimestres.

tabla-demanda-trimestral

Utilizando una Regresión Lineal obtenga el pronóstico de demanda para los próximos 4 trimestres (en caso de obtener resultados fraccionarios redondee el pronóstico al entero más cercano).

Consideramos como variable dependiente la Demanda y como variable independiente el Trimestre. Adicionalmente sabemos que:

calculo-b0-y-b1

Luego estimamos el coeficiente de pendiente β1 y el coeficiente de intercepto β0. Notar que la cantidad de cifras significativas utilizadas para estimar los parámetros de la regresión ha sido arbitrario:

ecuacion-regresion-ajustada

Una vez calculados los parámetros β0β1 estamos en condiciones de realizar los pronósticos para los próximos 4 trimestres (períodos 9, 10, 11 y 12).

pronostico-regresion-lineal

Notar que al obtener los pronósticos de demanda utilizando exclusivamente la tendencia se omite las características estacionales del comportamiento de la demanda. Por ejemplo, se espera sobrestimar la demanda del trimestre 9 y subestimar la demanda del trimestre 11.

¿Cómo se comparta el método de pronóstico si lo ajustamos a los datos históricos?. Para ello será necesario realizar las proyecciones con la regresión lineal desde el trimestre 1 al trimestre 8. Por ejemplo, el pronóstico del trimestre 1 es F(1)=361+70,667(1)=432 (aproximado al entero más cercano). Los resultados completos se resumen en la tabla a continuación donde los valores en la columna celeste corresponden al MAD y los valores en la columna amarilla son la Señal de Rastreo.

tabla-calculo-señal-seguimi

A continuación graficamos el comportamiento de la Señal de Rastreo (TS):

grafico-ts

La Señal de Rastreo se encuentra en el rango comúnmente aceptado y no se evidencia una tendencia en su comportamiento. No obstante el patrón que sigue (periodos bajo y sobre cero alternados) sugiere que utilizar la tendencia como único dispositivo de pronóstico no rescata de forma adecuada la variabilidad de los datos y la estacionalidad de los mismos. Lo anterior queda de manifiesto al comparar los datos reales versus los pronosticados:

ajuste-regresion-a-demanda-

Cuando TS es positivo la demanda real excede el pronóstico, por el contrario cuando TS es negativo la demanda real es menor que el pronóstico.

Como conclusión se propone utilizar un método que considere explícitamente la estacionalidad para realizar proyecciones como el Método de Pronóstico de Demanda utilizando Variación Estacional o el Método de Descomposición. No obstante en general se busca que la Señal de Rastreo varíe en el rango comúnmente aceptado de [-4,4] MAD y que su comportamiento no sugiera la presencia de error sistemático.