Skip to content

Latest commit

 

History

History
178 lines (93 loc) · 8.33 KB

README.md

File metadata and controls

178 lines (93 loc) · 8.33 KB

Predição de Sobrevida de Pacientes com Câncer de Pulmão: Integração de Modelos Binário e Regressivo

Projeto Aprendizado de Máquina, Turma 2024

Colaboradores: Glauber Nascimento, Rafael Anis e Maria Emily Gomes

Aprendizado de Máquina - Prof. Dr. Daniel Cassar

Projeto Concluído ✅

💡 Descrição

Este projeto se baseia em um conjunto de modelos preditivos para encontrar o tempo de sobrevida de pacientes com câncer de pulmão de células não pequenas. Dessa forma, foi necessário o uso de um modelo classificador binário, que prevê se o paciente foi curado ou não, ou seja, se a previsão de sobrevida é maior que 60 meses ou não, e caso não tenha sido curado, um modelo regressor, que prevê o tempo, em meses, de sobrevida deste paciente. O objetivo desse trabalho é auxiliar na urgência/intensificação de tratamento em pacientes com menos tempo de sobrevida.

🫁 Atributos

Os atributos usados foram inicialmente definidos com auxílio da professora Juliana Smetana, visando os principais parâmetros para a influência da sobrevida em pacientes com cancer. Além disso, alguns atributos foram selecionados pelo falor de inflação de variância (VIF), sendo os mais relevantes listados abaixo:

Age at surgical procedure: Idade que o paciente foi submetido ao procedimento cirúrgico.

Fraction genome altered: Fração do genoma que foi alterado.

Met count: Quantas metástases o paciente possui.

Met site count: Quantos sítios de metástase o paciente possui.

MSI Score: Quantidades de microssatélites instáveis que o paciente possui, resultado de problemas no reparo do DNA.

Mutation count: Quantas mutações o paciente possui.

TBM (nonsynonymous): Número total de mutações não sinônimas.

🏹 Target

Para o modelo classificador binário:

Curado: Se o paciente irá ser curado do cancer em menos de 5 meses.

Para o modelo regressor floresta aleatória:

Sobrevida: Tempo, em meses, que o paciente irá sobreviver.

📔 Notebooks e arquivos do projeto

msk_met_2021_clinical_data (1).tsv: Dataset usado no trabalho, retirado da referência 1

Estudando o Target: Neste notebook, estudamos as colunas do dataset com potencial de serem targets para a realização dos modelos. Ao ver que as colunas presentes no dataset eram organizadas de forma diferente do que os modelos buscam, novas colunas foram criadas.

Escolhendo o modelo classificador: Neste notebook, buscamos, por meio do Optuna, os melhores hiperparâmetos e atributos para o modelo classificador binário, onde ele prevê se o paciente foi curado, ou não.

Escolha o modelo regressor: Neste notebook, buscamos, por meio do Optuna, os melhores hiperparâmetos e atributos para o modelo regressor, onde ele prevê o tempo de sobrevida do paciente, em meses.

Predição de sobrevida - A história: Neste notebook, apresentamos, de forma resumida, o projeto final como um todo. Apresentando os melhores modelos treinados e teste de aplicação em um grupo pertencente no limiar de meses entre 55 e 60.

🤖 Modelos Usados

Baseline: Este modelo é usado como uma forma de comparação aos modelos mais complexos, sendo a média ou mediana, em casos numéricos e a moda em variáveis cateóricas.

Classificador binário Floresta Aleatória: Este modelo classifica os dados em Curados e Não-Curados.

Regressor Floresta Aleatória: Este modelo retorna o target do tempo de sobrevida, em meses, do paciente. Este modelo possui diversas árvores de decisão, que organiza os dados através da semelhança em um atributo, e é aleatório pois a formação dessas árvores depende da amostragem dos atributos.

🧰 Ferramentas Usadas

Optuna: Esta ferramenta é extremamente útil para encontrar os melhores hiperparâmetros dos modelos desenvolvidos. Pela busca adaptativa, essa ferramenta altera esses hiperparâmetros automaticamente, podendo, assim, encontrar o melhor modelo. 3

Fator de Inflação de Variância (VIF): É uma ferramenta para a análise da multicolinearidade dos atributos, sendo importante para filtrar os que apresentam alta colinearidade. A multicolinearidade influencia negativamente para a performance do modelo, pois atrapalha a interpretação dos coeficientes, aumentando o erro posterior. 4

Root Mean Square Error (RMSE): Métrica usada para avaliar um modelo de regressão, no nosso trabalho a floresta aleatória. Sendo calculada pela raiz quadrada da média dos quadrados dos erros, oferecendo uma medida entre os valores preditos e verdadeiros.

Acurácia: métrica usada na classificação de problemass binários, que se baseia nos exemplos que foram corretamente identificados.

Precisão: métrica usada na classificação de problemass binários, que se baseia nos exemplos que foram classificados com rótulo positivo e foram corretamente identificados.

Sensibilidade: métrica usada na classificação de problemass binários, que se baseia nos exemplos que possuem um rótulo positivo e foram corretamente identificados.

📁 Acesso ao projeto

Você pode acessar o código pelo github ou, preferencialmente, baixá-lo.

🛠️ Abrir e rodar o projeto

Depois de baixar o projeto você deve abrí-lo no Jupyter Notebook/VS code

📓 Linguagens e programas usados

Python, Jupyter Notebook, VS Code, Matplotlib, Scikit Learn, Numpy, Pandas

📖 Referências

  1. Nguyen, B. et al. Genomic characterization of metastatic patterns from prospective clinical sequencing of 25,000 patients. Cell 185, 563-575.e11 (2022).
  2. Daniel Cassar, Material de Aula, disciplina: Aprendizado de Máquina. 2024
  3. Optuna - A hyperparameter optimization framework. Disponível em: https://optuna.org/
  4. Yemulwary, S. Feature Selection Techniques. Disponível em: https://medium.com/analytics-vidhya/feature-selection-techniques-2614b3b7efcd

:octocat: Autores

👓 Orientação

Contribuições - Todos os autores construíram o código juntos e também atuaram como revisores do trabalho apresentado.

Glauber Nascimento escreveu esse documento, revisado por Rafael Anis e Maria Emily Gomes