Si la relación tiene alguna forma definida será considerada como correlación entre las variables. Comúnmente hablaremos de correlación lineal, que es la más práctica a efectos del análisis en Data Science.
La correlación lineal puede medirse a través de un indicador denominado coeficiente de correlación. Puede tener valores entre -1 y 1, y lo interpretamos de la siguiente manera:
Si el valor de la correlación es cercano a 1, significa que cuando los valores de una variable son altos, los de la otra variable también lo son, y análogamente con los valores bajos. Por ejemplo a mayor altura (eje x), mayor peso (eje y).
Si el valor de la correlación es cercano a -1 significa que cuando los valores de una variable son bajos, los valores de la otra variable son altos, y análogamente con los valores altos.
Si el valor de la correlación es cercano a 0, significa que no hay una correlación lineal fuerte entre las variables.
Planteamos la hipótesis de que podría existir algún tipo de dependencia de una variable con respecto a la otra.
Si este tipo de dependencia existe, queremos ver de qué forma se da esa relación.
Supongamos entonces, que tenemos dos variables: x e y, ahora veamos el siguiente gráfico:
Pareciera que las variables tienen una fuerte correlación positiva, y si lo pensamos en términos de dependencia, quiere decir que cuando la variable x aumenta, entonces también lo hace la variable y, y viceversa.
Atención: cuando planteamos que ante un cambio en la variable x se produce un cambio en la variable y. A esto lo llamaremos dependencia de la variable y hacia la variable x.
Como una función matemática estándar
Donde la variable y es una función de x, o sea que en definitiva y depende del cambio de x.
Otra forma de decir lo mismo es que x es una variable independiente, o sea que su cambio no depende de nuestro modelo.
Ante un cambio en la variable x, hay un cambio en la variable y
Y depende del cambio en x. Es decir, existe una forma funcional matemática que si conozco el valor de x obtengo a y.
Correlación alta no implica que haya una causalidad.
La frase "correlación no implica causalidad" se utiliza para señalar que la correlación entre dos variables no significa necesariamente que una variable haga que ocurra la otra.
Correlación es una relación o conexión mutua entre dos o más cosas (o variables)
Causalidad significa que existe una relación entre dos eventos en la que un evento afecta al otro.
Donde a y b son números reales.
Esta función genera una recta en el plano.
El valor de a (ordenada al origen) muestra cuál es el valor de y cuando x vale 0.
El valor de b (pendiente), por su parte, indica el grado de inclinación de la recta.
Recordar:
Una recta totalmente horizontal > tiene una pendiente igual a cero.
Una recta inclinada en el sentido de la correlación positiva > tiene una pendiente positiva.
Una recta inclinada en el sentido de la correlación negativa > tiene una pendiente negativa.
Una recta vertical > tiene pendiente infinita.