Verificación de la pendiente, asociado al valor b de la función:
Es decir, b no debería ser cero. Necesitamos que haya una relación entre x e y.
Entonces lo primero que se debe chequear es qeu el valor de b sea estadísticamente distinto de cero. Si esto se cunple podemos decir que hay relación entre x e y.
La pregunta a responder es si efectivamente la recta es válida como representante del conjunto de datos.
Hay una clara relación positiva, se ve que ante mayores valores de x, llegamos a mayores valores de y.
Relación positiva, creciente entre x e y
Es clara la situación pero aquí, dada la relación negativa, la variable y disminuye conforme x aumenta y viceversa.
Relación negativa, decreciente entre x e y
Aquí la recta parece tener una pendiente prácticamente nula y la recta parece representar bastante apropiadamente los datos.
Recta horizontal por lo que nos podría decir que no hay relación entre la variable x e y.
No hay regresión lineal entra la variable dependiente e independiente.
¿Tienen los puntos una relación entre sí? Sí.
¿Tiene la relación una forma lineal? Sí.
¿Existe una recta que pueda ser calculada con el método de mínimos cuadrados, y que en ese sentido pase por la parte “más central” de los datos? Sí.
¿Puede armarse un modelo de regresión lineal a partir de este ajuste? No
La recta de mínimos cuadrados, ¿representa adecuadamente a los datos? No
¿Por qué? Porque al ser la pendiente de la recta igual a cero, no hay dependencia de la variable y hacia la variable x. Y como no hay dependencia, no existe un modelo de regresión lineal que represente adecuadamente a estos datos.
Este es un test estadístico para verificar que la pendiente no sea cero. Puede ser positiva o negativa, pero no debería ser cero.
No entraremos aquí en los detalles del test, pero sí aprenderemos a ver sus salidas.
En Python podemos obtener esta información con el paquete extra pingouin
Como Skylearning no lo usa aplicamos otras librerías.
Caso 1: Coeficiente del 0.68
Intervalos de confianza de 0.66 y 0.71. Además el pvalor nos da un valor muy chico y podemos rechazar la hipótesis nula.
Caso 3 Coeficiente bastante grande 251.70 y el coef. -0.0.1
Intervalos de confianza de -0.03 y 0.01. El pvalor nos da un valor muy chico y podemos rechazar la hipótesis nula. Si el pvalor da más de 0.05 (5%) tener cuidado ya que me está dando 0.31
Este es un número que puede tomar valores entre 0 y 1, y puede interpretarse también de manera porcentual (de 0% a 100%).
Se simboliza como R2 y representa el porcentaje de variabilidad de los datos explicada por el modelo de regresión lineal.
Con la métrica R cuadrado nos va a dar el porcentaje de variabilidad explicada, cuando se acerca a 1 es mejor, si me da cero o menor a cero está extremadamente mal.
Conjunto de puntos que tiene una recta de ajuste que parece funcionar muy bien, por cuanto pasa bastante bien por el “centro” de los datos.
Conjunto de datos no parece ser lo más conveniente utilizar una recta para representar los puntos.
Chequear que la condición de R2 en el ejemplo 1 me dió cerca del 1 asique muy bien, mientras que en el ejemplo 2 me dió muy bajo.
Realizaremos predicciones para valores de y a partir de valores de x que no habían sido utilizados antes.
Utilizando la recta de regresión para hacer la predicción.
El nuevo punto a predecir se colocará sobre la recta, y se podrá afirmar que el valor predicho tendrá una “fidelidad” igual al valor de R.
Si hay algún valor de x faltante en el conjunto de datos, podemos suponer que su valor de y correspondiente corresponderá al señalado por la recta para dicho valor de x, como se muestra con el punto cuadrado de color verde.
En Python el modelo se utiliza simplemente a través de la función predict().
https://drive.google.com/file/d/15HnOOAFWtnGmnVu5TDISp9znTSEPOqra/view?usp=sharing
¿Qué factores están impulsando la discriminación salarial entre hombres y mujeres en su organización?
Contexto empresarial
Su empresa está pasando por una revisión interna de sus prácticas de contratación y compensación a los empleados. En los últimos años, su empresa ha tenido poco éxito en la conversión de candidatas de alta calidad que deseaba contratar. La gerencia plantea la hipótesis de que esto se debe a una posible discriminación salarial y quiere averiguar qué la está causando.
Problema empresarial:
Como parte de la revisión interna, el departamento de recursos humanos se ha acercado a usted para investigar específicamente la siguiente pregunta: "En general, ¿se les paga más a los hombres que a las mujeres en su organización? Si es así, ¿qué conduciendo esta brecha?"
Contexto analítico:
Cuenta con una base de datos de empleados que contiene información sobre varios atributos como rendimiento, educación, ingresos, antigüedad, etc.