Traditionally, collections of texts are digitally represented as a set of documents containing the text along with some kind of markup to define extra information, like metadata, annotations, etc. We propose a different approach that models the textual information in a dual way: as a sequence of characters, as well as a composition of a particular kind of entities, called textual objects. With such objects it is possible to represent portions of text organized in different, potentially overlapping, hierarchies, together with complex annotations. Manuzio is a statically typechecked language to define schemas of such textual objects and to write complex queries and applications on them through a set of powerful operators. In the thesis we describe our textual model, the main features of the language ares specified, and, finally, we introduce a sketch of a system to manage persistent collections of texts and execute programs written in Manuzio.
Tradizionalmente una collezione di testi è reppresentata in formato digitale da un insieme di documenti che contengono, oltre al testo stesso, qualche tipo di marcatura per veicolare informazioni extra-textuali, come metadati, annotazioni, etc. In questa tesi si propone un approccio differente, che modella l'informazione testuale in maniera duplice: sia come una sequenza di caratteri, sia come una composizione di particolari entità, chiamate oggetti testuali. Tramite questi oggetti è possibile rappresentare porzioni di testo, organizzate in gerarchie potenzialmente sovrapposte, complementate da annotazioni strutturate. Manuzio è un linguaggio di programmazione staticamente tipato che permette di deinire schemi di oggetti testuali e di scrivere interrogazioni e algoritmi di analisi testuali attraverso un insieme di operatori potenti. In questa tesi viene descritto il modello testuale, vengono specificate principali caratteristiche del linguaggio Manuzio, e viene introdotta la bozza di un sistema completo capace di archiviare collezioni di testi in maniera persistente e di eseguire programmi Manuzio.