Abstract:
La maggior parte dei moderni motori di ricerca fa uso di modelli di machine learning additivi per valutare la rilevanza di documenti in relazione a una query. Dato che i modelli usati sono composti da numerosi sotto modelli il costo totale è direttamente dipendente dal loro numero ed esso è quindi legato anche alla responsività del sistema influenzando il tempo di risposta delle query. In questa tesi vengono discusse delle strategie atte a interrompere lo scoring di documenti che difficilmente risulteranno rilevanti. Tali strategie sono state testate utilizzando come modello una foresta di alberi di regressione e come dataset il noto e largamente utilizzato Microsoft Learning to Rank Dataset.
Alla fine si verrà a mostrare che è possibile ottenere degli speedup di oltre 2x con perdite minime di qualità dei risultati, valutata attraverso l’ uso dell’indice NDCG@10.