- Cargar, limpiar y preparar los datos. Que
- Convertir texto a caracteristicas
- Entrenar un modelo de clasificación
- Comparar diferentes modelos en los mismos datos
- Simplificamos datos hasta tener solo 2 columnas:
overall
yreviewtext
. Luego, eliminamos filas con valores nulos. - Utilizamos una funcion llamada clean_text hecha por nosotros para limpiar el texto. Luego, utilizamos TfidfVectorizer para convertir texto a caracteristicas.
- Utilizamos un modelo de clasificación llamado
LogisticRegression
para entrenar el modelo. Tambien entrenamos de inicio conRandomForestClassifier
, que consideramos seria el que tendria mejor funcionamiento antes de hacer pruebas - Ejecutamos muchos modelos diferentes y comparamos las matrices de confusion y la roc curve para determinar cual modelo es mejor. En este caso, el modelo
LogisticRegression
fue el mejor en un sistema de puntaje binario. Tenemos la idea de hacer pruebas prediciendo el valor exacto de cada review para la semana que viene
- Entrenar Hiperparametros de un modelo
- Solucionar problemas de desbalanceo de clases
- Validar un modelo utilizando diferentes metricas
- Seleccionar el mejor modelo
- Realizar predicciones sobre nuevos datos
- Utilizamos GridSearchCV para entrenar hiperparametros de un modelo. En este caso, utilizamos
LogisticRegression
yRandomForestClassifier
- Directamente utilizamos pd.concat para concatenar los datos de train y test usando el total de datos negativos para escoger datos positovos random
- Utilizamos diferentes metricas como
accuracy_score
,precision_score
,recall_score
,f1_score
,roc_auc_score
yconfusion_matrix
para validar el modelo - Utilizamos
LogisticRegression
como mejor modelo, ya que tuvo mejor desempeño en todas las metricas - Realizamos predicciones sobre nuevos datos utilizando el modelo
LogisticRegression
,random forest
ynaive bayes
.
En la carpeta CODIGOEJECUCIONFINAL
se encuentran los archivos necesarios para ejecutar el codigo final. Para ejecutar el codigo, se debe correr el archivo codigofinal.py
que deberia usar amazon_reviews
y descargar reviews.csv
para poder ejecutarse.
Despues este mismo codigo ira almacenando los diferentes plots de ejemplo en 3 directorios diferentes para mostrar parte de lo que se ha hecho durante la practica. Realmente en el archivo de Codigousadodurantepractica
esta el codigo que fuimos utilizando durante
la practica y la mayoria de los plots que se fueron generando durante la misma.