Skip to content

MoltenDevLabs/project-4-data-analysis-end-to-end-es

 
 

Repository files navigation

logo_ironhack_blue 7

Proyecto de Análisis de Datos End to End

Introducción

¡Bienvenido a tu proyecto final! El objetivo de este proyecto es que apliques tus habilidades de data science y analytics que aprendiste a lo largo del bootcamp realizando un análisis end to end en un conjunto de datos del mundo real. El proyecto también te ayudará a demostrar tu competencia en las habilidades requeridas para tu trayectoria profesional deseada y a desarrollar tu portafolio para mostrar tus capacidades a posibles reclutadores.

Si tienes dificultades para encontrar un tema, hemos proporcionado una lista de conjuntos de datos para que los consideres. Sin embargo, te recomendamos encarecidamente que explores y selecciones un tema y un conjunto de datos que te interesen personalmente, ya que esto hará que el proyecto sea más atractivo y gratificante.

Setup

Para este proyecto, tienes la opción de trabajar de manera individual o en parejas, dependiendo de tus intereses y objetivos. Si tú y un compañero comparten un interés común y tienen planes ambiciosos para lo que quieren lograr, trabajar en parejas es una excelente manera de colaborar y abordar desafíos más complejos. Sin embargo, ten en cuenta que si decides trabajar en parejas, esperamos un nivel más alto de producción y calidad.

Resumen del Proyecto

Puedes seleccionar uno de dos temas, cada uno diseñado para enfocarse en habilidades específicas y adaptarse a tus intereses y aspiraciones profesionales. Esto te permitirá adaptar el proyecto a tus necesidades individuales y proporcionar una valiosa oportunidad de aprendizaje que se alinee con tus objetivos a largo plazo.

Tema 1: Proyecto de Ciencia de Datos end to end

El objetivo de este business case es construir, sobre la base de un business case, un modelo predictivo en Python.

Este proyecto requerirá que selecciones un business case de tu elección y recorras todo el proceso de ciencia de datos, realizando la recolección de datos, limpieza y manipulación de datos, análisis exploratorio de datos, ingeniería de características, preprocesamiento, selección de modelos, evaluación y visualización de datos. El proyecto debe estructurarse como una canalización completa que incluya cada paso del proceso.

Tema 2: Proyecto de Análisis de Datos end to end

El objetivo de este business case es llevar a cabo un análisis de datos y construir un panel de control para la toma de decisiones, utilizando principalmente SQL, algo de Python y una herramienta de visualización como Tableau o Power BI.

Este proyecto requerirá que selecciones un business case de tu elección y apliques el proceso completo de análisis de datos, desde la recolección de datos, limpieza y manipulación de datos, ingeniería de características, análisis estadístico, hasta la visualización de datos y paneles de control. El proyecto debe estructurarse como una canalización completa que incluya cada paso del proceso.

Requisitos Previos

Para completar con éxito el proyecto final, debes poseer una sólida comprensión de varios conceptos clave, incluyendo programación en Python, manipulación de datos y análisis exploratorio de datos (EDA), como se requiere para proyectos anteriores. Además de estos, los siguientes son requisitos previos esenciales que debes tener antes de comenzar este proyecto final:

Tema 1: Proyecto de Ciencia de Datos end to end

Requisitos mínimos:

  • Conceptos clave de aprendizaje automático: aprendizaje supervisado y no supervisado, clasificación y regresión, compensación bias-variance, entrenamiento-prueba-validación cruzada, ingeniería de características (incluyendo codificación, escalado y selección), evaluación de modelos, manejo de conjuntos de datos desbalanceados y ajuste de hiperparámetros.
  • Modelos supervisados de aprendizaje automático como regresión lineal, regresión logística, árboles de decisión, K-Nearest Neighbors (KNN), máquinas de soporte vectorial (SVM), Naive Bayes y modelos de conjunto.
  • Modelos no supervisados, como KMeans, clustering jerárquico y PCA.
  • Fuerte comprensión de las métricas y técnicas de preprocesamiento más apropiadas según el problema y el contexto específico.
  • Experiencia con iteración de mejora de modelos.

Requisitos deseables:

  • Series de tiempo
  • NLP
  • Aprendizaje profundo

Tema 2: Proyecto de Análisis de Datos end to end

Requisitos mínimos:

  • SQL
  • Herramientas de visualización como Tableau o Power BI

Empezando

  • Planificación del Proyecto:
    • Crear un tablero Kanban o Trello para el seguimiento del progreso y la gestión de objetivos.
    • Utilizar datos de proyectos anteriores, si están disponibles.
  • Selección de Problema y Recolección de Datos:
    • Seleccionar un problema de negocio a abordar.
    • Localizar y recopilar los datos necesarios.
    • Explorar y comprender cada campo en el conjunto de datos.
  • Análisis de Datos:
    • Aplicar técnicas estadísticas y de visualización de datos para examinar las relaciones entre características.
    • Hacer conjeturas informadas sobre las características que requieren una investigación adicional.
  • Limpieza y Manipulación de Datos:
    • Manejar valores atípicos y faltantes.
    • Realizar cambio de tipo y selección de características.
    • Convertir datos categóricos a numéricos.
    • Utilizar métodos estadísticos para el análisis de datos.
  • Aprendizaje Automático (Si aplica):
    • Aplicar aprendizaje automático a los datos de la variable objetivo para predicción, clasificación, clustering, etc.
    • Experimentar con diferentes modelos e hiperparámetros.
    • Elegir el modelo más simple y efectivo.
    • Definir claramente la métrica para evaluar los "mejores" resultados.
  • Presentación de Resultados:
    • Presentar un resumen estadístico y visualizaciones de datos.
    • Para proyectos que no involucren aprendizaje automático:
      • Crear una base de datos para el almacenamiento de datos.
      • Utilizar SQL para el análisis de datos.
      • Incorporar un panel de control para la toma de decisiones.

Entregables

Debes presentar los siguientes entregables para que el proyecto se considere completo:

  • Un nuevo repositorio en tu cuenta de Github.
    • Código funcional que cumpla con todos los requisitos técnicos, desarrollado por ti.
      • Jupyter Notebook, archivos Python, archivos SQL, informe de Tableau/PowerBI o cualquier archivo adicional necesario para tu trabajo.
    • Un README con la documentación completa del proyecto. A continuación, se presenta un ejemplo de un archivo README que podría incluir en su repositorio: Data Project README example.
    • Opcional: Un informe detallado del proyecto, siguiendo el formato proporcionado. Nota: El template del informe del proyecto puede personalizarse para ajustarse mejor a los requisitos específicos de tu proyecto y curso. Te animamos a consultar con tu equipo docente para asegurarte de que tu informe cumpla con todas las directrices y expectativas necesarias. A continuación, se presenta un ejemplo de un informe que podría crear: Ejemplo de informe de proyecto de datos. También puedes incluir este informe en tu repositorio.
    • La URL de las diapositivas para tu presentación del proyecto.
  • Presentación: Al presentar tu trabajo, hay muchos factores importantes a considerar, como el contenido de tu presentación y la forma en que la entregas. Consulta la lección titulada 'Cómo construir la presentación del proyecto final' en tu Portal del Estudiante.
  • Pega el enlace de tu propio repositorio en la Actividad de Proyecto del Portal del Estudiante.

Rúbrica

Con el fin de evaluar tu proyecto y asegurarte de que se cumplan todos los requisitos, se utilizará una rúbrica. Esta rúbrica se utiliza para evaluar tu proyecto por parte de tu equipo docente, pero también para comunicar lo que constituye un rendimiento incompleto, aceptable y excelente en cada uno de los resultados de aprendizaje del proyecto. Tómate un tiempo para revisar la rúbrica en la tarjeta del Portal del Estudiante y pregunta a tu equipo docente cualquier duda al respecto si es necesario.

Funcionalidades Avanzadas Opcionales

Completar los requisitos básicos de tu proyecto es un excelente comienzo, pero aprovechar algunas funcionalidades avanzadas puede llevar tu trabajo al siguiente nivel. Aquí hay algunas opciones a considerar si quieres ir más allá.

  • Usa métodos sofisticados para la limpieza de datos, como el manejo de datos faltantes o ruidosos con técnicas avanzadas como algoritmos de Machine Learning.
  • Usa técnicas avanzadas para manejar datos desbalanceados (si es necesario).
  • Considera el análisis de series de tiempo si es aplicable.
  • Si usas Machine Learning:
    • Implementa modelos más complejos y sofisticados, como redes neuronales, NLP, técnicas avanzadas de series de tiempo.
    • Usa técnicas de stacking para combinar múltiples modelos y mejorar las predicciones.
    • Usa técnicas avanzadas de ingeniería de características como la reducción de dimensionalidad con análisis de componentes principales (PCA) y métodos avanzados de selección de características.

Despliegue del modelo en una aplicación web o servicio en la nube.

Presentaciones

Eres libre de presentar tu proyecto final de la manera que consideres que mejor representa tu trabajo. El contenido dependerá de si tu proyecto será el tema 1 o el temao 2, pero en ambos casos es importante que comuniques una historia convincente sobre cómo abordaste el proyecto, las técnicas utilizadas, los conocimientos adquiridos y los aprendizajes clave.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%