Ejemplo de una Regresión Lineal Múltiple para un Pronóstico con Excel y Minitab

Los métodos de pronósticos de relaciones causales establecen que el comportamiento o variación de una variable de interés se puede explicar a través de una o más variables que se presume tienen un efecto significativo sobre ella. Tal sería el caso de si por ejemplo se intenta explicar las ventas de casas en un país a través de variables como la tasa de interés promedio para créditos hipotecarios, PIB per cápita, subsidios del estado para adquisición de nuevas viviendas, crecimiento demográfico, entre otras.

Ejemplo de una Regresión Lineal Múltiple

En el siguiente artículo desarrollaremos un pronóstico a través de una regresión lineal múltiple que en términos generales se puede representar por Y=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\cdots +\beta_{k}X_{k} donde Y es la variable dependiente, X_{1},X_{2},\cdots ,X_{k} las variables independientes y \beta _{0},\beta _{1},\beta _{2},\cdots,\beta _{k} los coeficientes de la regresión. En particular consideraremos en el siguiente ejemplo una variable dependiente (Ganancias en Millones de $) y 2 variables explicativas o independientes (Número de Vendedores y Precio del Producto $), es decir, Y=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}, donde X_{1} es el N° de Vendedores y X_{2} el Precio del Producto ($). La información se resume en la tabla a continuación:

datos-regresion-lineal-mult

En el artículo Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda se detalla el procedimiento para obtener una regresión lineal simple con una variable explicativa, lo cual se favorece con la utilización de las herramientas que provee Excel como se muestra en los siguientes gráficos:

graficos-regresion-lineal-s

¿Qué sucede si ahora buscamos explicar las Ganancias en Millones de $ a través del Número de Vendedores y Precio del Producto $? (ambas variables independientes o explicativas en forma simultanea). Existen varias alternativas para lograr lo anterior. Un procedimiento sencillo es utilizar la herramienta de Análisis de Datos de Excel cuya implementación se muestra a continuación:

estadisticas-regresion-mult

Otra alternativa es hacer uso del software estadístico Minitab 17. El siguiente tutorial muestra la implementación computacional:

salida-regresion-multiple-m

La diferencia en los coeficientes de la regresión de ambos procedimientos obedece sólo a aspectos de visualización de los resultados. Luego, la interpretación es la siguiente: las variables independientes Número de Vendedores y Precio del Producto $ explican el 97,23% de la variación de las Ganancias en Millones de $. Notar que al considerar 2 variables independientes el coeficiente de determinación r cuadrado aumenta en comparación a las alternativas que consideran sólo una variable independiente o explicativa.

¿Quieres tener el archivo Excel con la Regresión Lineal Múltiple desarrollada en este ejemplo?

[sociallocker]

MUCHAS GRACIAS!. DESCARGA AQUÍ EL ARCHIVO

[/sociallocker]

Cómo se relaciona el Coeficiente de Correlación de Pearson (r) y el Coeficiente de Determinación r Cuadrado (r²)

El coeficiente de correlación de Pearson o r es una prueba estadística que permite analizar la relación entre dos variables medidas en un nivel por intervalos o de razón, donde r mide el grado de asociación lineal entre dos variables X e Y. La prueba en sí no considera a una como independiente y a otra como dependiente, ya que no se trata de una prueba que evalúa causalidad. El coeficiente r de Pearson se estima de acuerdo a la siguiente fórmula:

r pearson

El coeficiente r de puede variar de -1 a 1, donde el signo indica la dirección de la correlación y el valor numérico, la magnitud de la correlación. En este contexto se resumen algunos criterios de interpretación:

  • -1,00 = Correlación negativa perfecta
  • -0,90 = Correlación negativa muy fuerte
  • -0,75 = Correlación negativa considerable
  • -0,50 = Correlación negativa media
  • -0,10 = Correlación negativa débil
  • 0,00  = No existe correlación lineal alguna entre las variables
  • 0,10  = Correlación positiva débil
  • 0,50  = Correlación positiva media
  •  0,75 = Correlación positiva considerable
  •  0,90  = Correlación positiva muy fuerte
  • 1,00  = Correlación positiva perfecta

A continuación se presentan algunos ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación de Pearson (poblacional).

diagramas-correlacion-de-pe

Cuando el coeficiente r de Pearson se eleva al cuadrado, el resultado indica el porcentaje de la variación de una variable debido a la variación de la otra y viceversa. Es decir, el coeficiente de determinación, r al cuadrado o r², es la proporción de la variación en Y explicada por X. Puede adoptar cualquier valor entre 0 y 1, inclusive.

Ejemplo: Una empresa comercial tiene establecimientos en varias ciudades de Chile. El gerente comercial planea lanzar al aire un anuncio comercial por radio en las estaciones locales, al menos dos veces antes de una promoción (liquidación) que empezará el Sábado y terminará el Domingo. Planea tener las cifras de las ventas de grabadoras de vídeos (Blu-Ray) del Sábado y Domingo en sus diferentes locales y compararlas con el número de veces que apareció el comercial en la radio. El objetivo fundamental de la investigación es determinar si existe relación entre el número de veces que se transmitió el anuncio y las ventas de sus productos. Los datos son:

correlacion-anuncios-y-vent

Con la información de la tabla anterior se desea responder las siguientes interrogantes:

1. ¿Cuál es la variable dependiente?. La variable dependiente son las Ventas.

2. Trace el diagrama o gráfico de dispersión.

grafico-de-dispersion
3. ¿Parece haber alguna relación entre X e Y?. Si existe una fuerte correlación positiva.
4. Determine el coeficiente de correlación. Para ello utilizaremos la herramienta de Análisis de Datos la cual se encuentra disponible en el menú de Datos de Excel. Luego seleccionamos Regresión según se observa a continuación:

herramienta-analisis-de-dat

En las opciones de regresión seleccionamos los datos de Ventas de Sábado y Domingo como Rango Y de entrada (variable dependiente) y los datos del N° de Anuncios corresponderá al Rango X de entrada (variable independiente).

analisis-de-datos-excel

Al seleccionar Aceptar se obtienen las estadísticas de la regresión donde el coeficiente de correlación de Pearson o r es de 0,93 (aproximado) y en consecuencia el coeficiente de determinación r² es de r²=(0,929516)²=0,864.

estadisticas-de-la-regresio

Notar que un procedimiento alternativo para obtener el coeficiente de determinación r² es mediante la incorporación de una línea de tendencia lineal en el diagrama de dispersión tal cual abordamos en el artículo Cómo utilizar una Regresión Lineal para realizar un Pronóstico de Demanda.

grafico-lineal-r-cuadrado

5. Evalúe la intensidad de la relación entre X e Y. 0,93 indica una correlación positiva fuerte entre el número de veces que sale publicado el anuncio, y las ventas.