La regresión es un método para determinar la relación estadística entre una variable dependiente y una o más variables independientes.
La variable independiente del cambio está asociada con el cambio en las variables independientes.
El modelo está dado por la ecuación: y꞊a +bx. Con a= Intercepto y b=pendiente
Un modelo de regresión lineal no es simplemente una recta de ajuste por mínimos cuadrados, sino que deben cumplirse una serie de condiciones rigurosas que deben probarse matemáticamente.
Los supuestos que asumimos a la hora de utilizar una regresión lineal son:
Normalidad: Los residuales del modelo tienen una distribución normal. Normalidad de los residuos (hacer histograma)
Relación lineal: Existe una relación lineal entre las variables independientes y la dependiente. Va a existir una relación lineal
Independencia: no hay correlación entre los residuales como lo que ocurre en series de tiempo. Cuando se grafican los residuos de los n puntos no se deben correlacionar como las series de tiempo (no se depende de un valor, son independientes)
Homocedasticidad: Los residuales tienen una varianza constante. Los residuos cuando los grafico se esperan que tengan una variabilidad constante, es decir que se muevan dentro de un rango
El algoritmo encuentra la mejor recta en función de minimizar la suma de los errores al cuadrado. Los errores es la distancia del punto a la recta que se crea.
Se elevan los residuos al cuadrado para sacar el signo porque pueden estar por encima o por debajo de la recta.
Se toma cada punto individual y se calcula su distancia vertical a la recta (denominada error y simbolizada con la letra e).
Se realiza entonces la suma de todas las distancias verticales elevadas al cuadrado.
El objetivo es minimizar los errores:
Machine Learning está asociado a tres tipos de problemas
Aprendizaje Supervisado
Aprendizaje No supervisado
Aprendizaje por refuerzo
La regresión hace parte de lo que se conoce como Aprendizaje Supervisado.
La regresión se puede llevar a cabo por un amplio número de algoritmos (e.g Modelo lineal, XGBOOST, Random Forest, Regresión Ridge, Lasso y ElasticNet)
Variable Target que queremos predecir. Aprendizaje Supervisado.
Clasificación: Variable Categórica.
Regresión: Variable Continua. Se predicen valores numéricos.
Problemas de clasificación
Necesitan predecir la clase más probable de un elemento, en función de un conjunto de variables de entrada. Para este tipo de algoritmos, la variable target o respuesta, es una variable de tipo categórica.
Problemas de regresión
En vez de predecir categorías, predicen valores numéricos. Es decir, la variable target en un problema de regresión es de tipo cuantitativa.
Ruta de trabajo elemental para trabajo con algoritmos de Scikit-Learn