Tratamientos de Datos Faltantes en Pandas Series

DropNa --> Datos faltantes.

# Vamos a crear una estructura de serie

serie= pd.Series(data=[1,2,3,4],index=['David','Juan',1,2],name='SerieX')

serie

David 1
Juan 2
1 3
2 4

Name: SerieX, dtype: int64

# Algunas propiedades de la serie

print('Indice de la serie:',serie.index)

Indice de la serie: Index(['David', 'Juan', 1, 2], dtype='object')

print('Valores de la serie:',serie.values)

Valores de la serie: [1 2 3 4]

print('Longitud de serie:',serie.count())

Longitud de serie: 4

# Verificar nulos en la serie

serie.isna()

David False
Juan False
1 False
2 False

Name: SerieX, dtype: bool

Manejo de datos nulos

Los datos nulos son uno de los problemas más comunes a los que se enfrenta un Data Scientist .
Son un problema porque muchos algoritmos no están diseñados para trabajar con ellos y pueden disminuir el performance en general de las tareas de aprendizaje automático.
Son más comunes de lo que las personas piensan.
Pueden surgir por malos esquemas de muestreo, falla de sensores, renuencia a responder en encuestas, malos diseños de captura de datos

Para poder manejar estos datos, en general, se usan las siguientes estrategias:

Introducir un valor constante para los nulos o una categoría llamada Desconocido en variables categóricas.
Reemplazar por un valor seleccionado al azar de los otros registros:
- Usar la media, mediana o moda para rellenar el valor.
- Valor estimado usando un modelo.
  - Problemas: Ej. precios de las viviendas de Argentina, con varias variables estimo el precio de la vivienda, pero si me faltan los metros cuadrados de la vivienda por la media no es representativo, para esto se puede usar un modelado de datos, por ej. puedo calcular la media por cantidad de habitaciones.

Podemos aplicar estas técnicas de forma manual o usando SimpleImputer de ScikitLearn (es una librería que se puede importar en Pandas que va a resolver gran parte de estos problemas)

Ejemplo de Datos Nulos en Colab

Page updated

Google Sites

Report abuse