DropNa --> Datos faltantes.
# Vamos a crear una estructura de serie
serie= pd.Series(data=[1,2,3,4],index=['David','Juan',1,2],name='SerieX')
serie
David 1
Juan 2
1 3
2 4
Name: SerieX, dtype: int64
# Algunas propiedades de la serie
print('Indice de la serie:',serie.index)
Indice de la serie: Index(['David', 'Juan', 1, 2], dtype='object')
print('Valores de la serie:',serie.values)
Valores de la serie: [1 2 3 4]
print('Longitud de serie:',serie.count())
Longitud de serie: 4
# Verificar nulos en la serie
serie.isna()
David False
Juan False
1 False
2 False
Name: SerieX, dtype: bool
Los datos nulos son uno de los problemas más comunes a los que se enfrenta un Data Scientist .
Son un problema porque muchos algoritmos no están diseñados para trabajar con ellos y pueden disminuir el performance en general de las tareas de aprendizaje automático.
Son más comunes de lo que las personas piensan.
Pueden surgir por malos esquemas de muestreo, falla de sensores, renuencia a responder en encuestas, malos diseños de captura de datos
Introducir un valor constante para los nulos o una categoría llamada Desconocido en variables categóricas.
Reemplazar por un valor seleccionado al azar de los otros registros:
Usar la media, mediana o moda para rellenar el valor.
Valor estimado usando un modelo.
Problemas: Ej. precios de las viviendas de Argentina, con varias variables estimo el precio de la vivienda, pero si me faltan los metros cuadrados de la vivienda por la media no es representativo, para esto se puede usar un modelado de datos, por ej. puedo calcular la media por cantidad de habitaciones.
Podemos aplicar estas técnicas de forma manual o usando SimpleImputer de ScikitLearn (es una librería que se puede importar en Pandas que va a resolver gran parte de estos problemas)