Abstract:
Lo scopo di questo progetto di tesi, dopo uno studio sui papers di Speaker CLustering di riferimento, è di reimplementare l'algoritmo di clustering che mirando in un implementazione migliore in termini di prestazioni che dimostrino l'efficacia e la flessibilità di un approccio piuttosto nuovo. Diversamente dal solito, questo metodo alternativo per lo Speaker Clustering ridefinisce livemente la definizione di cluster e viene chiamato Dominant Set. La nozione di Dominant Set ruota attorno alla teoria dei grafi e al problema di ottimizzazione nella ricerca del sotto-grafico massimale, e aiutata dalla teoria dei giochi. Tali sotto-grafici sono analoghi ad un insieme con alta coerenza interna e debole con elementi esterni. Il data ser utilizzato in input è stato fornito da un gruppo di ricerca e conosciuto con il nome di TIMIT, con i vettori di features già estratti da registrazioni di file audio. Sebbene TIMIT fosse pensato per i metodi supervisionati e le implementazioni basate su reti neurali, l'obiettivo è appunto quello di dimostrare la flessibilità degli insiemi dominanti nei vettori di features nel riconoscimento degli interlocutori mediante la classificazione delle espressioni vocali. Alcune implementazioni in diversi linguaggi di programmazione dimostrano il potenziale dell'utilizzo dei Dominant Set per lo Speaker Clustering dopo un primo test comparativo su altre tecniche di clustering simili e utilizzando entrambe le versioni ridotta e completa del data set TIMIT.