Skip to content

Modelo preditivo do tempo de sobrevida de pacientes com câncer de pulmão de células não pequenas

Notifications You must be signed in to change notification settings

Glaubernaoli/MIRAGE

Repository files navigation

Predição de Sobrevida de Pacientes com Câncer de Pulmão: Integração de Modelos Binário e Regressivo

Projeto Aprendizado de Máquina, Turma 2024

Colaboradores: Glauber Nascimento, Rafael Anis e Maria Emily Gomes

Aprendizado de Máquina - Prof. Dr. Daniel Cassar

Projeto Concluído ✅

💡 Descrição

Este projeto se baseia em um conjunto de modelos preditivos para encontrar o tempo de sobrevida de pacientes com câncer de pulmão de células não pequenas. Dessa forma, foi necessário o uso de um modelo classificador binário, que prevê se o paciente foi curado ou não, ou seja, se a previsão de sobrevida é maior que 60 meses ou não, e caso não tenha sido curado, um modelo regressor, que prevê o tempo, em meses, de sobrevida deste paciente. O objetivo desse trabalho é auxiliar na urgência/intensificação de tratamento em pacientes com menos tempo de sobrevida.

🫁 Atributos

Os atributos usados foram inicialmente definidos com auxílio da professora Juliana Smetana, visando os principais parâmetros para a influência da sobrevida em pacientes com cancer. Além disso, alguns atributos foram selecionados pelo falor de inflação de variância (VIF), sendo os mais relevantes listados abaixo:

Age at surgical procedure: Idade que o paciente foi submetido ao procedimento cirúrgico.

Fraction genome altered: Fração do genoma que foi alterado.

Met count: Quantas metástases o paciente possui.

Met site count: Quantos sítios de metástase o paciente possui.

MSI Score: Quantidades de microssatélites instáveis que o paciente possui, resultado de problemas no reparo do DNA.

Mutation count: Quantas mutações o paciente possui.

TBM (nonsynonymous): Número total de mutações não sinônimas.

🏹 Target

Para o modelo classificador binário:

Curado: Se o paciente irá ser curado do cancer em menos de 5 meses.

Para o modelo regressor floresta aleatória:

Sobrevida: Tempo, em meses, que o paciente irá sobreviver.

📔 Notebooks e arquivos do projeto

msk_met_2021_clinical_data (1).tsv: Dataset usado no trabalho, retirado da referência 1

Estudando o Target: Neste notebook, estudamos as colunas do dataset com potencial de serem targets para a realização dos modelos. Ao ver que as colunas presentes no dataset eram organizadas de forma diferente do que os modelos buscam, novas colunas foram criadas.

Escolhendo o modelo classificador: Neste notebook, buscamos, por meio do Optuna, os melhores hiperparâmetos e atributos para o modelo classificador binário, onde ele prevê se o paciente foi curado, ou não.

Escolha o modelo regressor: Neste notebook, buscamos, por meio do Optuna, os melhores hiperparâmetos e atributos para o modelo regressor, onde ele prevê o tempo de sobrevida do paciente, em meses.

Predição de sobrevida - A história: Neste notebook, apresentamos, de forma resumida, o projeto final como um todo. Apresentando os melhores modelos treinados e teste de aplicação em um grupo pertencente no limiar de meses entre 55 e 60.

🤖 Modelos Usados

Baseline: Este modelo é usado como uma forma de comparação aos modelos mais complexos, sendo a média ou mediana, em casos numéricos e a moda em variáveis cateóricas.

Classificador binário Floresta Aleatória: Este modelo classifica os dados em Curados e Não-Curados.

Regressor Floresta Aleatória: Este modelo retorna o target do tempo de sobrevida, em meses, do paciente. Este modelo possui diversas árvores de decisão, que organiza os dados através da semelhança em um atributo, e é aleatório pois a formação dessas árvores depende da amostragem dos atributos.

🧰 Ferramentas Usadas

Optuna: Esta ferramenta é extremamente útil para encontrar os melhores hiperparâmetros dos modelos desenvolvidos. Pela busca adaptativa, essa ferramenta altera esses hiperparâmetros automaticamente, podendo, assim, encontrar o melhor modelo. 3

Fator de Inflação de Variância (VIF): É uma ferramenta para a análise da multicolinearidade dos atributos, sendo importante para filtrar os que apresentam alta colinearidade. A multicolinearidade influencia negativamente para a performance do modelo, pois atrapalha a interpretação dos coeficientes, aumentando o erro posterior. 4

Root Mean Square Error (RMSE): Métrica usada para avaliar um modelo de regressão, no nosso trabalho a floresta aleatória. Sendo calculada pela raiz quadrada da média dos quadrados dos erros, oferecendo uma medida entre os valores preditos e verdadeiros.

Acurácia: métrica usada na classificação de problemass binários, que se baseia nos exemplos que foram corretamente identificados.

Precisão: métrica usada na classificação de problemass binários, que se baseia nos exemplos que foram classificados com rótulo positivo e foram corretamente identificados.

Sensibilidade: métrica usada na classificação de problemass binários, que se baseia nos exemplos que possuem um rótulo positivo e foram corretamente identificados.

📁 Acesso ao projeto

Você pode acessar o código pelo github ou, preferencialmente, baixá-lo.

🛠️ Abrir e rodar o projeto

Depois de baixar o projeto você deve abrí-lo no Jupyter Notebook/VS code

📓 Linguagens e programas usados

Python, Jupyter Notebook, VS Code, Matplotlib, Scikit Learn, Numpy, Pandas

📖 Referências

  1. Nguyen, B. et al. Genomic characterization of metastatic patterns from prospective clinical sequencing of 25,000 patients. Cell 185, 563-575.e11 (2022).
  2. Daniel Cassar, Material de Aula, disciplina: Aprendizado de Máquina. 2024
  3. Optuna - A hyperparameter optimization framework. Disponível em: https://optuna.org/
  4. Yemulwary, S. Feature Selection Techniques. Disponível em: https://medium.com/analytics-vidhya/feature-selection-techniques-2614b3b7efcd

:octocat: Autores

👓 Orientação

Contribuições - Todos os autores construíram o código juntos e também atuaram como revisores do trabalho apresentado.

Glauber Nascimento escreveu esse documento, revisado por Rafael Anis e Maria Emily Gomes

About

Modelo preditivo do tempo de sobrevida de pacientes com câncer de pulmão de células não pequenas

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •