Esta consiste en la etapa fundamental donde se debe comprender bien el problema que se quiere resolver
Se debe descomponer el problema en un flujo de procedimientos que involucran una perspectiva holística del contexto empresarial
Las diferentes fuentes de información pueden ser First, Second, Third Party, datos estructurados, semi estructurados o no estructurados, los cuales deben organizarse para tener un esquema lógico eficiente y de fácil manipulación
Los datos son el resultado de algún proceso de recopilación con ciertos diseños muestrales estadísticos
Eliminación de inconsistencias dentro de los datos, se debe lidiar con:
Elementos duplicados que reducen variedad
Se debe elegir una estrategia para el manejo de datos nulos (Imputación, llenado o eliminación)
Se debe contar con herramientas para el manejo de atípicos (outliers) que afectan la varianza de los estimadores en los modelos
Se deben utilizar herramientas de visualización para poder entender comportamientos y patrones en los datos
Se deben realizar transformaciones para el análisis comparativo de variables
Un buen desarrollo de esta etapa puede ayudar a comprender mejor las causas que explican el fenómeno de estudio generando los primeros insights
También conocido como Feature Selection, consiste en el proceso de seleccionar las características (variables) con más importancia en la variable a predecir.
Las variables altamente correlacionadas pueden generar inestabilidad en los modelos por colinealidad
Existen diversos métodos y algoritmos para realizar este proceso (Wrapper, Embebed, Filter)
Este es uno de los procesos más cruciales en el modelado de ciencia de datos, ya que el algoritmo de aprendizaje automático ayuda a crear un modelo de datos utilizable.
Hay muchos algoritmos para elegir, el modelo se selecciona en función del problema.
Tres tipos de aprendizaje: Supervisado (Regresión y Clasificación), No supervisado y Aprendizaje por refuerzo
Es fundamental comprobar que nuestros esfuerzos de modelado cumplan con las expectativas.
El modelamiento se aplica a los datos de prueba para verificar precisión y si contiene todas las características deseables.
Si no se logra la precisión requerida, puede volver a la Fase 5, elegir un modelo de datos alternativo y luego probar el modelo nuevamente.
El modelo que proporciona los mejores resultados basado en los hallazgos de las pruebas se completa y se implementa en el entorno de producción siempre que se logre el resultado deseado a través de las pruebas adecuadas según las necesidades comerciales. Con esto concluye el proceso de desarrollo del modelo analítico.
En el aprendizaje basado en máquina 👉 un destino se conoce como etiqueta o target.
En estadística 👉 un destino se conoce como variable dependiente.
Una variable en estadística 👉 se conoce como característica en el Machine Learning o Feature. O las columnas del Dataset
Una transformación, en estadística 👉 se conoce como creación de característica en el ML.
Atributos que describen las instancias en el dataset
Proceso de seleccionar las variables óptimas para incluir en la fase de entrenamiento
Información de insumo, material vital para el desarrollo de modelos
Entendimiento de patrones involucrados
Optimización de parámetros de un algoritmo hasta encontrar la mejor combinación
Estructuras matemáticas que se utilizan para obtener insights y predicciones
Proceso para validar desempeño de modelos