Questo lavoro presenta un’analisi finalizzata allo sviluppo semi-automatico di risorse secondo il modello di FrameNet per nuove lingue, con un’attenzione particolare per l’italiano. L’approccio proposto consiste nel mantenere, ove possibile, l’architettura teorica di FrameNet inglese, e nell’arricchire automaticamente la parte della risorsa specifica per ogni lingua, in particolare acquisendo lexical unit e frasi d’esempio in italiano.
La prima parte dell’analisi è dedicata alla presentazione della teoria semantica dei frame e alla presentazione dei progetti in corso per lo sviluppo di nuovi FrameNet. Si fornisce inoltre una breve panoramica degli ambiti del trattamento automatico del linguaggio ai quali le informazioni sui frame potrebbero fornire un contributo significativo.
La seconda parte della tesi si concentra maggiormente sugli aspetti applicativi e presenta tre strategie per l’annotazione semi-automatica di informazioni sui frame in testi italiani.
Anche se il presente lavoro riguarda principalmente l’italiano, il modello proposto può essere facilmente esteso a altre lingue, poiché gli esperimenti effettuati utilizzano risorse multilingue liberamente disponibili come il corpus Europarl (in 11 lingue), MultiWordNet (5 lingue) e Wikipedia (264 lingue).
The topic of this work is the semi-automatic development of FrameNet-like resources for new languages with a focus on Italian. Our approach is aimed at exploiting as much as possible the theoretical backbone of English FrameNet, and to find ways to automatically populate the language-dependent part of the database with Italian lexical units and example sentences.
The first part of this thesis is devoted to the analysis of FrameNet theoretical background and to the discussion about ongoing projects for the development of new FrameNets. We also introduce the main natural language processing tasks that can benefit from the integration of frame information.
The second part of the thesis is more task-oriented and presents three strategies for the semi-automatic annotation of Italian data with frame information. We start from the fundamental assumption that frames as defined in the English FrameNet can be re-used for the semantic analysis of Italian, but then we account also for some exceptions to such claim, due to different types of cross-linguistic divergences.
Even if we focus on Italian, the presented framework can be easily applied to any new language, also because our experiments were carried out using publicly available multilingual resources such as the Europarl corpus (available in 11 languages), MultiWordNet (5 languages) and Wikipedia (264 languages).