Conceptos Clave de Correlación y Regresión Lineal para el Análisis de Datos
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 3,1 KB
Covarianza
La covarianza es una medida descriptiva que permite determinar el tipo de asociación lineal entre dos variables.
Coeficiente de correlación
Aunque la covarianza indica el tipo de relación lineal que hay entre dos variables, no podemos saber la fortaleza de esa relación. Para eso debemos calcular otro valor, llamado coeficiente de correlación. El coeficiente de correlación se utiliza para medir la magnitud de la relación lineal entre dos variables, es decir, indica cuán fuerte o débil es una relación lineal.
Coeficiente de determinación
Cuando lo que interesa es analizar una relación de causalidad entre dos variables, primero debemos definir cuál de ellas es la variable dependiente (Y) y cuál es la variable independiente (X).
La variable dependiente Y es la que se busca explicar; en términos estadísticos, es la que se busca estimar o pronosticar. A su vez, la variable independiente X es la que brinda información para explicar Y y recibe el nombre de variable de predicción.
Para saber si una variable X es “buena” para explicar la variable Y se calcula el coeficiente de determinación, que representaremos con R2 y que tiene las características siguientes:
- Es el cuadrado del coeficiente de correlación.
- Su rango de valores está entre 0 y 1.
- No da ninguna información sobre la dirección de la relación entre las variables.
Cuanto más cerca esté de 1, la variable independiente X será una buena variable para explicar Y. Es decir, es un factor determinante para Y. En contraparte, conforme R2 se acerca a 0, indica que X no es un factor significativo para explicar Y.
Regresión Lineal Simple
Este concepto se define por sus componentes:
- Regresión: utilizaremos información pasada.
- Lineal: bajo el supuesto de que entre dos variables (X y Y) existe una relación lineal.
- Simple: usaremos sólo una variable independiente para tratar de explicar la variable dependiente.
En otras palabras, ajustaremos una recta a los datos. “Ajustar” se refiere a construir la única recta que pase lo más cerca de todos los puntos ubicados en el diagrama de dispersión.
Método de mínimos cuadrados
El análisis de regresión consiste en definir la variable independiente X que ayude a explicar (estimar) la variable dependiente Y, siempre que exista una relación lineal entre ellas, además de que ambas variables deben ser cuantitativas.
El método de mínimos cuadrados se usa para determinar la ecuación de la recta de regresión, es decir, por medio de él se encuentra la única recta que pasa lo más cerca que se puede de todos los puntos (observaciones) ubicados en un diagrama. La ecuación del método de mínimos cuadrados es:
Y' = b1X + b0