Venice Italian Treebank (VIT) – version 2

ISLRN: 942-234-530-020-7

ID:

ELRA-W0324

The VIT, Venice Italian Treebank is the effort of the collaboration of people working at the Laboratory of Computational Linguistics of the University of Venice in the years 1995-2005. It is partly the result of annotation carried out internally with no specific project in mind and no financial support. This work was partly related to the development of a lexicon, a morphological analyzer, a tagger, and a deep parser of Italian. All these resources were finally ready at the beginning of the ‘90s when the LCL got involved in the first national projects.

This is a new release of the Venice Italian Treebank (VIT). It consists of the Written and Spoken VIT subsets. The PennTreebank version of the treebank is also made available on both subsets using parentheses and also a slightly modified version using brackets that allows web based visualization tools to build a tree of the structure.

1) Written VIT:
The current dimension of the corpus is made of 223,292 tokens excluding punctuation, but 280,641 single tokens including enclitics and punctuation. It contains a totally revised constituency based representation of the corpus as well as three new files:
a. vitorthograph_numb: this file contains the orthographic text of the 10195 sentences of the written treebank (the spoken one is available and does not need updating). Every sentence is marked by the same identifier found in the other files;
b. vitdepstructs: the file that contains the conversion of the original constituency based VIT turned into dependency structures. This file has been lately used to produce the Universal Dependency version which however in order to obey the tagging schemes of UD had to be totally revised. As a result, most important information was deleted but is available in this original version. The deleted information concerns the labeling of all non canonical structures by highlighting dislocated, discontinuous and displaced grammatical functions with specialized labels taken from linguistic theory. These labels are:
- LDC = Left Dislocated Complements
- S_DIS = Dislocated Subject
- S_TOP = Topicalized Subject
- S_FOC = Focalized Subject
c. vitfragment: dubbed VITfrag, contains the first 500 sentences which are slightly decomposed into 511 shorter sentences - separating interrogative sentences and direct speech marked ones – newly separated sentences are numbered with the same number of the previous half sentence with an "a" at the end.

2) Spoken VIT:
The spontaneous speech corpus of Regional Italian contains 60,000 words and was created in the years 1995-2005. It contains two subcorpora collected under two National Projects: the project AVIP/API - the corresponding Italian version of the English project MapTask - where API is just the continuation of the previous project, and the project IPAR. The most important feature of the corpus is the annotation of OVERLAPS which are numerous in the dialogues.
In this new revised version, 425 new fully parsed turns were added for a total of 3973. The total count of sentences is now 5851.
The most important feature of the spoken VIT is the presence of overlaps transposed in the position inside the turn in which it was produced. 965 overlaps were annotated and distributed in 4000 turns.
This subsets consists of both the parsed version of the corpus in constituent structure – called “parse_spokenVIT” - and the tokenized version of each sentence composing each turn in a separate file called “spokenVIT sentences”.

Original version also available here: http://catalog.elra.info/en-us/repository/browse/ELRA-W0040/

View resource description in French

Le VIT, Venice Italian Treebank est le fruit d’un effort de collaboration de chercheurs travaillant au Laboratoire de linguistique informatique de l’Université de Venise dans les années 1995-2005. C’est en partie le résultat de travaux d’annotation réalisés en interne en dehors de tout projet spécifique et sans soutien financier. Ce travail a été en partie lié au développement d’un lexique, d’un analyseur morphologique, d’un étiqueteur, et d’un analyseur syntaxique profond de l’italien. Toutes ces ressources furent prêtes dès le début des années 90 lorsque le LCL s’est impliqué dans les premiers projets nationaux.

Il s’agit d’une nouvelle version du Venice Italian Treebank (VIT). Il se compose des sous-ensembles de VIT écrit et parlé. La version PennTreebank de ce treebank est également disponible pour les deux sous-ensembles avec l’usage de parenthèses et d’une version légèrement modifiée avec l’usage de crochets qui permettent aux outils de visualisation Web de construire un arbre de la structure.

1) VIT écrit:
La dimension actuelle du corpus est composée de 223 292 tokens excluant la ponctuation ou de 280 641 tokens simples incluant les enclitiques et la ponctuation. Il contient une représentation basée sur les constituants entièrement révisée du corpus, ainsi que trois nouveaux fichiers:
a. vitorthograph_numb: ce fichier contient le texte orthographique des 10195 phrases du treebank écrit (la partie parlée est disponible et n’a pas besoin de mise à jour). Chaque phrase est marquée par le même identifiant trouvé dans les autres fichiers;
b. vitdepstructs: ce fichier contient la conversion du VIT d’origine basé sur les constituants et transformé en structures de dépendance. Ce fichier a été récemment utilisé pour produire la version du Universal Dependency qui, cependant, a dû être totalement révisée afin d’obéir aux schémas de marquage de l’UD. En conséquence, les informations les plus importantes ont été supprimées, mais sont disponibles dans cette version originale. Les informations supprimées concernent l’étiquetage de toutes les structures non canoniques en mettant en évidence les fonctions grammaticales disloquées, discontinues et déplacées avec des étiquettes spécialisées tirées de la théorie linguistique. Ces étiquettes sont:
— LDC = Left Dislocated Complements (compléments disloqués gauches)
— S_DIS = Dislocated Subject (sujet disloqué)
— S_TOP = Topicalized Subject (sujet topicalisé)
— S_FOC = Focalized Subject (sujet focalisé)
c. vitfragment: abrégée en VITfrag, contient les 500 premières phrases qui sont légèrement décomposées en 511 phrases plus courtes — séparant les phrases interrogatives et les phrases directement marquées — les phrases nouvellement séparées sont numérotées avec le même numéro correspondant à la moitié de phrase précédente et un « a » à la fin.

2) VIT parlé:
Le corpus de parole spontanée de l’italien régional contient 60 000 mots et a été créé dans les années 1995-2005. Il contient deux sous-corpus collectés dans le cadre de deux projets nationaux: le projet AVIP/API - version italienne correspondant au projet anglais Maptask - où l’API n’est que la poursuite du projet précédent, et le projet IPAR. La caractéristique la plus importante du corpus est l’annotation d’OVERLAPS qui sont nombreux dans les dialogues.
Dans cette nouvelle version révisée, 425 nouveaux tours entièrement analysés ont été ajoutés pour un total de 3973. Le nombre total de phrases est maintenant de 5851.
La caractéristique la plus importante du VIT parlé est la présence de chevauchements transposés dans la position à l’intérieur du tour dans lequel il a été produit. 965 chevauchements ont été annotés et séparés en 4000 tours.
Ce sous-ensemble se compose à la fois de la version analysée du corpus en structure constituante — appelée « parse_spokenVIT » — et de la version tokenisée de chaque phrase composant chaque tour dans un fichier séparé appelé « spokenVIT » sentences.

Version originale également disponible ici: http://catalog.elra.info/en-us/repository/browse/ELRA-W0040/

MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	3000.00 €	7000.00 €
Licence: Commercial Use - ELRA VAR	7000.00 €	7000.00 €

NON MEMBER	academic	commercial
Licence: Non Commercial Use - ELRA END USER	4000.00 €	10000.00 €
Licence: Commercial Use - ELRA VAR	10000.00 €	10000.00 €