Se corresponde con el paso 4 del Ciclo de Vida de un Proyecto de Data Science.
El Análisis Exploratorio de Datos o Exploratory Data Analysis, tiene como finalidad examinar los datos previamente a la aplicación de cualquier técnica estadística. De esta forma el Científico de Datos, consigue un entendimiento básico de sus datos y de las relaciones existentes entre las variables analizadas.
Análisis estadístico
Identificación de outliers
Valores perdidos
Correlaciones y variables
Exploratory Data Analysis (EDA)
Análisis estadístico
¿Qué es un EDA?
El Análisis Exploratorio de Datos o Exploratory Data Analysis, tiene como finalidad examinar los datos previamente a la aplicación de cualquier técnica estadística. De esta forma el Científico de Datos, consigue un entendimiento básico de sus datos y de las relaciones existentes entre las variables analizadas.
¿Qué hace el EDA?
El EDA, proporciona métodos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y mucho más.
Utilidades del EDA
Algunas de las preguntas que podemos responder gracias a realizar un EDA, son las siguientes:
¿Existe algún sesgo en los datos recogidos?
¿Hay errores en la codificación de los datos?
¿Cómo se sintetiza y presenta la información contenida en un conjunto de datos?
¿Existen datos atípicos (outliers)? ¿Cuáles son? ¿Cómo tratarlos?
¿Hay datos ausentes (missing)? ¿Tienen algún patrón sistemático? ¿Cómo tratarlos?
Etapas del EDA
Preparación de datos
1) Preparación de datos
Como bien comentamos, el primer paso de un EDA es hacer accesible los datos a cualquier técnica estadística. Para ello, tendremos que realizar un input de los datos, los cuales recordemos pueden provenir de diferentes orígenes como ser por ejemplo: Excel, csv, Bases de Datos, etc.
Luego tendremos que elegir el software de analítica de datos que utilizaremos para la manipulación y el procesamiento del dataset. En nuestro caso utilizaremos Python.
La gran mayoría de los softwares orientados al análisis de datos, permiten realizar manipulaciones de los datos previas a un análisis de los mismos. Algunas operaciones útiles para realizar son las siguientes:
Combinar conjuntos de datos de dos o más archivos distintos.
Seleccionar subconjuntos de los datos.
Dividir el archivo de los datos en varias partes.
Transformar variables.
Filtrar y ordenar el dataset.
Agregar nuevos datos y/o variables.
Eliminar datos y/o variables.
Guardar datos y/o resultados.
Examen gráfico de los datos
Una vez organizados los datos, el segundo paso dentro de un EDA consiste en realizar un análisis estadístico gráfico y numérico de las variables del dataset, con el fin de tener una idea inicial de la información que se encuentra contenida en el conjunto de datos, así como detectar también en el caso de que existan posibles errores de codificación.
Es importante entender que el tipo de análisis que deberemos realizar va a depender de la escala de medida de la variable analizada.
Recordemos que tenemos variables numéricas (Discretas y continuas) y categóricas (Nominal u ordinal). Cada una de estas variables requiere métodos característicos para el analisis.
Correlaciones y variables
La correlación estadística simplemente es una medida de dependencia lineal entre dos variables. Por ende NO es correcto asociar una alta correlación con el concepto de causalidad
La causalidad es uno de los fenómenos más difíciles de explicar ya que requiere de reglas de asociación que funcionen de manera generalizada sin importar el contexto, por esto siempre hay que tener cuidado a la hora de establecer conclusiones respecto a las correlaciones que se obtienen.
La correlación es la covarianza pero dividida por los desvíos estándares de las dos variables. Presenta la siguiente fórmula matemática:
La correlación siempre va a darnos un número entre -1 y 1
Mientras más cerca nos de del valor 1, más fuerte es la relación lineal directa entre las variables.
Mientras más cerca nos de del valor -1, más fuerte es la relación lineal inversa entre las variables.
Si nos da 0 entonces no hay relación lineal entre las variables.
También es importante tener en cuenta 2 aspectos relevantes de destacar:
La ausencia de correlación significa que no hay una relación lineal, pero no que no hay relación.
Correlación no es, ni implica, causalidad.
Distribución de variables
En este paso resulta importante estudiar por ejemplo, las “Medidas de Forma” dentro del ámbito de la Estadística.
Pero ¿Qué son las medidas de forma? Son aquellas que estudian las características de la distribución de probabilidades observada. Podemos destacar:
Asimetría.
Curtosis.
4) Curtosis
La curtosis mide el grado de apuntamiento o achatamiento de la distribución de frecuencia. Es decir, nos ayuda a entender “cuán empinada está la curva”. Adicionalmente, existen diferentes tipos de curtosis:
Identificación de outliers
Como ya hemos estudiado en otras unidades del curso, tenemos que prestar especial atención a los outliers, dado que pueden tener un potencial negativo dentro de nuestro EDA.
También, es muy importante aclarar que no debemos eliminar los outliers por el sólo hecho de serlo. A menos que estemos 100% seguros que ese valor extremo se debe a un error de registro, una falla en el instrumento de medición o algún problema externo que sea verificable
Valores perdidos
6) Impacto de datos
ausentes
Una situación a la que se enfrenta frecuentemente cualquier científico de datos es el tratamiento de los valores perdidos. Los valores faltantes son aquellos que para una variable determinada no constan en algunas filas o patrones.
¿Por qué se pierden?
Los 3 motivos principales por los que se suelen tratar los valores perdidos son:
Pueden introducir un sesgo considerable (una diferencia notable entre los datos observados y los no observados).
Hacen el análisis y el manejo de los datos más complicado.
Generalmente ocasionan pérdidas de información.
¿Qué hacer con ellos?
Existen multitud de procedimientos para aplicar cuando tenemos valores perdidos. Aunque básicamente existen dos aproximaciones posibles:
Eliminar muestras o variables que tienen datos faltantes (Riesgoso).
Imputar los valores perdidos, es decir, sustituirlos por estimaciones.
Glosario
Correlación: medida que permite cuantificar la dependencia entre dos variables, puede ser de Pearson (Intervalo-Intervalo), Spearman (Ordinal-Ordinal), Kendall (Nominal-Nominal). La correlación no implica dependencia.
Outliers: son valores dentro de un conjunto de datos que varían mucho de los demás; son mucho más grandes o significativamente más pequeños. Los valores atípicos pueden indicar variabilidades en una medición, errores experimentales o una novedad.
EDA: procedimiento que nos permite entender y examinar de manera básica un conjunto de datos con el objetivo de comprender mejor las relaciones existentes
Etapas del EDA: conjunto de pasos para llevar a cabo la exploración de unos datos (preparación, examen gráfico, correlaciones, evaluación de distribuciones, asimetría, valores atípicos e impacto de ausentes)