Os atributos usados foram inicialmente definidos com auxílio da professora Juliana Smetana, visando os principais parâmetros para a influência da sobrevida em pacientes com cancer. Além disso, alguns atributos foram selecionados pelo falor de inflação de variância (VIF), sendo os mais relevantes listados abaixo:
Age at surgical procedure
: Idade que o paciente foi submetido ao procedimento cirúrgico.
Fraction genome altered
: Fração do genoma que foi alterado.
Met count
: Quantas metástases o paciente possui.
Met site count
: Quantos sítios de metástase o paciente possui.
MSI Score
: Quantidades de microssatélites instáveis que o paciente possui, resultado de problemas no reparo do DNA.
Mutation count
: Quantas mutações o paciente possui.
TBM (nonsynonymous)
: Número total de mutações não sinônimas.
Para o modelo classificador binário:
Curado
: Se o paciente irá ser curado do cancer em menos de 5 meses.
Para o modelo regressor floresta aleatória:
Sobrevida
: Tempo, em meses, que o paciente irá sobreviver.
msk_met_2021_clinical_data (1).tsv
: Dataset usado no trabalho, retirado da referência 1
Estudando o Target
: Neste notebook, estudamos as colunas do dataset com potencial de serem targets para a realização dos modelos. Ao ver que as colunas presentes no dataset eram organizadas de forma diferente do que os modelos buscam, novas colunas foram criadas.
Escolhendo o modelo classificador
: Neste notebook, buscamos, por meio do Optuna, os melhores hiperparâmetos e atributos para o modelo classificador binário, onde ele prevê se o paciente foi curado, ou não.
Escolha o modelo regressor
: Neste notebook, buscamos, por meio do Optuna, os melhores hiperparâmetos e atributos para o modelo regressor, onde ele prevê o tempo de sobrevida do paciente, em meses.
Predição de sobrevida - A história
: Neste notebook, apresentamos, de forma resumida, o projeto final como um todo. Apresentando os melhores modelos treinados e teste de aplicação em um grupo pertencente no limiar de meses entre 55 e 60.
Baseline
: Este modelo é usado como uma forma de comparação aos modelos mais complexos, sendo a média ou mediana, em casos numéricos e a moda em variáveis cateóricas.
Classificador binário Floresta Aleatória
: Este modelo classifica os dados em Curados e Não-Curados.
Regressor Floresta Aleatória
: Este modelo retorna o target do tempo de sobrevida, em meses, do paciente. Este modelo possui diversas árvores de decisão, que organiza os dados através da semelhança em um atributo, e é aleatório pois a formação dessas árvores depende da amostragem dos atributos.
Optuna
: Esta ferramenta é extremamente útil para encontrar os melhores hiperparâmetros dos modelos desenvolvidos. Pela busca adaptativa, essa ferramenta altera esses hiperparâmetros automaticamente, podendo, assim, encontrar o melhor modelo. 3
Fator de Inflação de Variância (VIF)
: É uma ferramenta para a análise da multicolinearidade dos atributos, sendo importante para filtrar os que apresentam alta colinearidade. A multicolinearidade influencia negativamente para a performance do modelo, pois atrapalha a interpretação dos coeficientes, aumentando o erro posterior. 4
Root Mean Square Error (RMSE)
: Métrica usada para avaliar um modelo de regressão, no nosso trabalho a floresta aleatória. Sendo calculada pela raiz quadrada da média dos quadrados dos erros, oferecendo uma medida entre os valores preditos e verdadeiros.
Acurácia
: métrica usada na classificação de problemass binários, que se baseia nos exemplos que foram corretamente identificados.
Precisão
: métrica usada na classificação de problemass binários, que se baseia nos exemplos que foram classificados com rótulo positivo e foram corretamente identificados.
Sensibilidade
: métrica usada na classificação de problemass binários, que se baseia nos exemplos que possuem um rótulo positivo e foram corretamente identificados.
Você pode acessar o código pelo github ou, preferencialmente, baixá-lo.
Depois de baixar o projeto você deve abrí-lo no Jupyter Notebook/VS code
Python
, Jupyter Notebook
, VS Code
, Matplotlib
, Scikit Learn
, Numpy
, Pandas
- Nguyen, B. et al. Genomic characterization of metastatic patterns from prospective clinical sequencing of 25,000 patients. Cell 185, 563-575.e11 (2022).
- Daniel Cassar, Material de Aula, disciplina: Aprendizado de Máquina. 2024
- Optuna - A hyperparameter optimization framework. Disponível em: https://optuna.org/
- Yemulwary, S. Feature Selection Techniques. Disponível em: https://medium.com/analytics-vidhya/feature-selection-techniques-2614b3b7efcd
Rafael Anis Currículo Lattes |
Glauber Nascimento de Oliveira Currículo Lattes |
Maria Emily Nayla Currículo Lattes |
---|