Si tenemos dos variables X (independiente) y Y (dependiente) y tomamos una muestra de tamaño n tenemos: (x1,y1), (x2,y2),...... (xn,yn)
Para cada valor xi tenemos una variable aleatoria: Yi= Y|X
De tal forma que las observaciones (y1,y2,...,yn) son una realización de las variables (Y1,Y2,....,Yn)
En este modelo se tiene solo una variable dependiente (Y) y una independiente (X), el modelo está dado por: y= a+bx
data3 = {'periodoacademico ': [2018,2019,2020, 2021,2022],
'cantidad': [6171, 11979, 13472,16710,20710]}
dfprueba3 = pd.DataFrame(data3)
dfprueba3
periodoacademico - cantidad
2018 - 6171
2019 - 11979
2020 - 13472
2021, - 16710
2022 - 20710
from sklearn.linear_model import LinearRegression
modelo_regresion = LinearRegression() # Siempre poner los paréntesis para instanciar el modelo de forma correcta
# Definir las características (X) para este ejemplo sólo se tiene 1 variable. Luego se configura la variable objetivo (y)
# La variable objetivo (y), también es llamada "Dependiente" o "Target".
X=dfprueba3.drop('cantidad',axis=1) # Otra opción es X = df[['PA']]
y=dfprueba3['cantidad']
modelo_regresion.fit(X,y) # Ajuste a la recta (acomodar los puntos)
LinearRegression
LinearRegression()
y_preds = modelo_regresion.predict(X) # Quiero saber cuales son las predicciones y lo guardo en la variable -
from sklearn.metrics import r2_score
# Valores entre 0 y 1. Mejor Valor carcano a 1 y si da 0 es lo mismo que el promedio
r2_score(y_preds,y)
0.969062859898073