Los datos son un arma de doble filo. Tenemos que ser fuertemente responsables ya que pueden servir para hacer el bien o para desinformar y engañar.
Conozca a su público
Proporcione contexto
Mantenga la simpleza y la claridad
Comprenda sus datos
Escoja un tipo de gráfico adecuado
Comunicar: El objetivo principal es el de comunicar, puede ser una idea o el resultado de un análisis hecho sobre estos datos.
Explorar: Consiste en analizar los datos mediante la realización de sucesivas visualizaciones que ayuden a entender sus características principales.
Datos de contexto: Representar una vista general de todos los datos es lo que permite tener un contexto sobre ellos, de modo que sea posible entender, por ejemplo, si un valor concreto es grande o pequeño en función de cómo es en el conjunto de datos.
Encontrar patrones y Outliers: Facilita el descubrimiento de patrones u outliers
Los gráficos suelen tener un mayor impacto que las tablas
En las tablas es difícil enfatizar:
Tendencias
Patrones
Diferencias
Siempre existirá la preferencia por presentar la información por medio de gráficos.
Barras
Histogramas
Líneas
Diagramas de dispersión
Boxplots
Barras y boxplots múltiples
Un título entendible, claro y conciso para lograr comunicar efectivamente
Etiquetas en ejes (x,y,z) entendibles y acordes con unidades de medición si fuera el caso
Una nota que indique: a) fuente de datos y b) descripción adicional de ser necesaria suele ayudar a un mejor entendimiento
Debe transmitir un mensaje claro
Debe resaltar puntos importantes
Buen formato de estilo (balance de colores, no recargada)
Cuidado con usar Gráficos 3D, no se recomiendan porque distorsionan un poco la parte visual, ejemplo:
Las ventas del iPhone de Apple en el mercado de smartphones estadounidense están marchando fantásticamente.
Descripción
Compara cantidades de datos de categoría
Tipos de datos
Categórico, cuantitativo
Fundamentos
Contar conjunto de datos.
Mostrar valores puntuales asociados a una categoría.
Se utilizan con datos categóricos.
Eje horizontal representa las categorías y una barra por cada una de ellas.
Eje vertical representa la cantidad o valor de los elementos de la categoría en cuestión.
Recomendación
No usar gráficos de barras para representar datos en el tiempo porque las relaciones y tendencias son más difíciles de visualizar. ¡Más adelante lo veremos con series de tiempo!
Ejemplo
Carguemos el siguiente dataset que tiene información de los pasajeros que abordaron el Titanic.
Hacemos un conteo por Pclass y realizamos un gráfico de barras comparativo de frecuencias.
import seaborn as sns
import pandas as pd
df=pd.read_csv("https://raw.githubusercontent.com/ven-27/datasets/master/titanic.csv")
df_n=df[['Survived','Sex','Pclass']].groupby(by=['Sex','Pclass']).count().reset_index()
df_n.head()
plt.figure(figsize=(10,6))
p = sns.barplot(y='Survived',x='Sex',hue='Pclass',data=df_n);
p.set_ylabel('Pasajeros')
Documentación: https://bokeh.org
Descripción
Muestra frecuencia de observaciones por intervalos de valores (bins). Un histograma muestra la importancia de cada intervalo de valores con respecto al total de datos.
Tipos de datos
Variables numericas continuas
Fundamentos
Nos sirve para ver la forma que tiene la distribución de nuestra variable.
En el eje x graficamos la variable para ver la distribución
Se utiliza usualmente para variables numéricas continuas
Muestran las frecuencias de aparición para cada intervalo de valores de la variable.
Muestran una distribución de datos (Tendencia central y Simetría vs Asimetría).
Similares a los gráficos de barras, pero muy diferentes en su comportamiento.
Recomendación
No usar muchos ni pocos bins (barras), es decir, si pongo un número de bins muy grande no sirve porque se pierde la visualización.
Ejemplo
Que:
Consideremos los datos correspondientes a las alturas de 500 personas, medidas en centímetros. Organizaremos las mediciones de altura disponibles en intervalos, también llamados bins.
Como:
se toman todos los valores de la variable, desde el mínimo al máximo y se divide el rango correspondiente en intervalos de igual tamaño. Generalmente, los lenguajes de programación ya proveen un valor calculado.
Siempre que tengamos una variable que tiene algún tipo de evolución a través del tiempo, o donde organizar sus valores a lo largo del tiempo tiene sentido para el análisis, podemos graficar una serie de tiempo.
Para este tipo de gráfico dibujaremos un punto cuya altura representará el valor de la variable y cuya posición con respecto al eje horizontal representará el momento en el tiempo en el que se mide esa variable. Luego, uniremos los puntos en forma secuencial.
Las líneas que conectan los puntos nos ayudan a percibir rápidamente si existe alguna tendencia, repetición de valores o cualquier otra característica.
Recomendación
Usar este tipo de gráfico para mostrar la evolución de una serie de datos, realizarla siempre con puntos y no con barras, y que el tiempo esté siempre en el eje horizontal, avanzando de izquierda a derecha.
Ejemplo
Utilicemos datos estimados para el precio de Bitcoin y grafiquemos la serie de tiempo de los datos para precio de cierre.
data=pd.read_csv('Time Series Data.csv') # Leer el archivo
price_date=data['Date'] # extraer dos vectores uno para la fecha
price_close=data['Close'] # extraer el precio de cierre en vector
plt.plot_date(price_date, price_close, linestyle='solid') # Graficar la serie de tiempo
plt.gcf().autofmt_xdate() # Darle formato fecha al eje x
plt.title('Precios Bitcoin')
plt.xlabel('Fecha')
plt.ylabel('Precio de cierre')
plt.tight_layout() # Ajustar los ejes
plt.show() # mostrar la grafica
Fundamentos
Se utilizan para observar en conjunto la relación entre dos variables.
Se colocan los puntos en dos variables y pueden analizarse las relaciones entre las mismas.
Hay que tener mucho cuidado a la hora de expresar conclusiones en forma de relaciones simples y no en vínculos de tipo causa-efecto.
Es importante tener en cuenta que cuando hablamos de relación no estamos hablando necesariamente de dependencia de una variable con respecto a la otra.
La longitud de la caja es la diferencia entre los cuartiles 1 y 3 (llamados comúnmente Q1 y Q3), por eso se la denomina rango intercuartil. Todos los valores por fuera de esos límites son considerados outliers.