Publicado en Junio de 2020
El codigo no se actualiza.
Videos en español: Ingeniería de Variables, Playlist en YouTube
Curso Original en Inglés: Feature Engineering for Machine Learning
Todas las técnicas aplicadas con Pandas, Scikit-learn y Feature-engine
-
Tipos de variables
- Numéricas
- Categóricas
- Fecha y hora
- Mixtas
-
Características de las variables
- Datos ausentes
- Cardinalidad
- Etiquetas raras
- Supuestos de los modelos
- Valores extremos
- Escala de las variables
-
Sustitución de datos faltantes
- Análisis de Casos Completos
- Imputación con la media y la mediana
- Sustitución con valor arbitrario
- Imputación con valor al final de la distribución
- Sustitución con la categoría más frecuenta (moda)
- Imputación con categoría adicional
- Imputación aleatoria
- Agregado de indicador de ausencia
- Secuencia de imputación
-
Codificación de variables categóricas
- Codificación One Hot
- Codificación One Hot de categorías frecuentes
- Codificación Ordinal
- Codificación con cuentas o frecuencias
- Codificación ordinal ordenada
- Codificación con la media de la variable de respuesta
- Codificación con tasa de probabilidad
- Peso de la evidencia
- Manejo de etiquetas raras
-
Transformación de variables numéricas
- Transformación Logarítmica
- Transformación de Potencia
- Transformación Reciproca
- Transformación de BoxCox
- Transformación de Yeo-Johnson
-
Discretización
- Discretización con intervalos de igual rango
- Discretización con intervalos de igual frecuencia
- Discretización arbitraria
- Discretización con árboles de decisión
-
Datos Extremos
- Remoción de datos extremos
- Truncamiento
- Winzorisación
-
Escalamiento de variables
- Estandarización
- Escalamiento por la media
- Escalamiento al mínimo y máximo valor
- Escalamiento al máximo absoluto
- Escalamiento con mediana y rango entre-cuartil
- Normalización a la norma del vector
-
Variables mixtas
- Separación en componente numérico y componente categórico
-
Variables de fecha y hora
- Extracción de componentes de día, mes y año
- Extracción de hora, minutos y segundos
- Captura de tiempo transcurrido
- Manejo de zonas horarias
-
Ensamblado de flujos de aprendizaje automático
- Regresión
- Clasificación