Abstract:
Al giorno d’oggi sono stati creati numerosi strumenti destinati ad aiutare i biologi nella loro attività di ricerca di fenomeni non ancora compresi. Essi sfruttano la grande mole di dati condivisi nella comunità scientifica.
Uno di questi fenomeni prevede il classificare i geni umani che, qualora risultassero mutati, abbiano o meno influenza nella manifestazione di malattie ereditarie.
In bioinformatica questo problema è chiamato: Disease Gene Prediction.
Un approccio moderno per supportare questi studi è detto network medicine: utilizzo dei risultati della teoria dei grafi per lavorare con datasets medicali disponibili in forma di grafi.
Se di un grafo sono note delle etichette associate ad uno o più nodi, è possibile propagarle ai nodi vicini, in modo da stimare quali nodi possano o meno essere etichettati con la stessa etichetta. Metodi di questo tipo sono chiamati metodi di diffusione.
Per regolare come la diffusione debba avvenire, scegliendo quali nodi vicini etichettare per primi tenendo conto della similarità tra i nodi, abbiamo modellato la dinamica di diffusione come un gioco evolutivo multi-popolazione in cui viene monitorata la diffusione della strategia dominante.
In pratica, l’input del nostro algoritmo sarà: un grafo pesato in cui i pesi sugli archi corrispondono alla similarità tra i vertici (geni) connessi dati da un’astrazione su di una PPI network.
L’informazione che vogliamo diffondere: nel dataset OMIM sono disponibili coppie(gene-malattia) che ci dicono se la presenza di mutazioni in uno specifico gene può portare alla manifestazione di determinate malattie ereditarie. L’output è il rank dei migliori candidati non ancora scoperti, ottenuto partendo da un noto (piccolo) sottoinsieme di disease genes di una determinata malattia ereditaria.
Per migliorare i risultati consideriamo anche la similarità tra le malattia che stiamo diffondendo(quella dei geni di partenza) e le altre malattie, in modo da suggerire in che direzione la diffusione debba avvenire.
La similarità tra le malattie è ottenuta da un metodo basato su temini MeSH che quantifica accuratamente la similarità tra le malattie ereditarie a livello molecolare(DSim daset)