ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-W0044
    Treebank italien syntaxique et sémantique (ISST)
    L’ISST comprend 89 941 entrées pour la partie domaine financier et 215 606 entrées pour la partie généralet. Il est formaté en XML.

    L’ISST se présente sous la forme d’une structure de description linguistique à cinq niveaux: orthographique, morpho-syntaxique, syntaxique, sémantique et lexico-sémantique. L’annotation syntaxique est distribuée sur deux niveaux différents : le niveau de structure en constituants et le niveau de relations fonctionnelles. Le cinquième niveau concerner l’annotation lexico-sémantique, qui est élaborée en termes d’étiquetage du sens des têtes lexicales (noms, verbes et adjectifs) augmentées d’autres types d’information sémantique : l’ItalWordNet (see ELRA-M0018) constitue la ressource de lexicale de référence pour la tâche d’étiquetage du sens. Les annotations syntaxiques et lexico-sémantiques réfèrent au texte annoté au niveau morpho-syntaxique, qui lui-même est relié au fichier orthographique avec le texte et le balisage de l’organisation macro-textuelle (par exemple, les titres, sous-titres, résumés, corps de l’article, paragraphes).

    La structure multi-niveaux de l’ISST révèle deux nouveautés principales par rapport à d’autres treebanks :
    1) alors que la plupart des treebanks sont restreints uniquement à une annotation syntaxique, l’ISST inclut à la fois des niveaux d’annotation syntaxique et sémantique. De cette façon, les pré-requis sont instaurés pour des études sur l’interface syntactico-sémantique basées sur des corpus : la mise en relation des niveaux d’annotation syntaxique et sémantique permet, par exemple, l’identification de propriétés de sous-catégorisation spécifiques associées à un sens spécifique au mot, ou l’identification de types sémantiques associés à des positions fonctionnelles d’un prédicat donné ;
    2) l’autre aspect innovant de l’ISST concerne l’approche distribuée de l’annotation syntaxique. A cet égard, l’ISST diffère de la plupart des treebanks qui adoptent un niveau de représentation syntaxique unique. L’ISST diffère également des treebanks multi-niveaux tels que le Treebank de dépendance de Prague: alors que les niveaux d’annotation de ce treebank réfèrent respectivement a) aux relations de dépendance de surface et b) à la structure de phrase sous-jacente, les niveaux d’annotation syntaxiques de l’ISST ont pour but de fournir des vues orthogonales de la même syntaxe de surface.

    Le schéma d’annotation morpho-syntaxique adopté est conforme au standard international EAGLES. L’annotation en constituants de l’ISST est basé à plusieurs respects sur d’autres schémas d’annotation syntaxique basés sur les constituants (par exemple, celui adopté dans le Penn Treebank), ce qui est principalement dû à l’organisation distribuée de l’annotation syntaxique : l’annotation à ce niveau consiste en l’identification des limites de la phrase par l’étiquetage des types de constituants ; les structures arborées de l’ISST sont peu profondes du fait que les relations fonctionnelles sont gérées à un niveau distinct.

    Le schéma d’annotation fonctionnelle de l’ISST est basé sur celui de FAME (Lenci et al. 1999, 2000), dont les principales caractéristiques peuvent être résumées comme suit : a) une organisation hiérarchique des relations fonctionnelles qui répond au besoin des représentations sous-spécifiées d’analyses fonctionnelles fortement ambiguës ; b) une architecture de codage modulaire qui s’articule autour de différents niveaux d’information, prenant en compte des facettes linguistiques d’annotation syntaxique différentes mais étroitement liées. FAME est à l’origine d’une révision d’un standard de facto, c’est-à-dire le schéma d’annotation fonctionnelle développé dans le cadre du projet LE-2111 SPARKLE, révision qui a été la première réalisée pour un meilleur respect des besoins d’évaluation de l’analyse syntaxique (dans le cadre du projet LE-8340 ELSE), et ensuite pour réaliser le schma pour l’annotation de textes italiens non restreints.

    Références:
    Lenci A., Montemagni S., Pirrelli V., Soria C., FAME: a Functional Annotation Meta-scheme for Multimodal and Multi-lingual Parsing Evaluation, in Proceedings of the ACL99 Workshop on Computer-Mediated Language Assessment and Evaluation in NLP, Université de Maryland, 22 juin 1999.

    Lenci A., Montemagni S., Pirrelli V., Soria C., Where opposites meet. A Syntactic Meta-scheme for Corpus Annotation and Parsing Evaluation, in Proceedings of LREC-2000, 31/5-2/6 2000, Athènes, 625-632.

    Articles décrivant l’ISST:
    Simonetta Montemagni, Francesco Barsotti, Marco Battista, Nicoletta Calzolari, Ornella Corazzari, Alessandro Lenci, Antonio Zampolli, Francesca Fanciulli, Maria Massetani, Remo Raffaelli, Roberto Basili, Maria Teresa Pazienza, Dario Saracino, Fabio Zanzotto, Nadia Mana, Fabio Pianesi, Rodolfo Delmonte, “Building the Italian Syntactic-Semantic Treebank”, in Anne Abeillé (ed.), Building and using Parsed Corpora, Language and Speech series, Kluwer, Dordrecht, pp. 189-210.

    Simonetta Montemagni, Francesco Barsotti, Marco Battista, Nicoletta Calzolari, Ornella Corazzari, Alessandro Lenci, Vito Pirrelli, Antonio Zampolli, Francesca Fanciulli, Maria Massetani, Remo Raffaelli, Roberto Basili, Maria Teresa Pazienza, Dario Saracino, Fabio Zanzotto, Nadia Mana, Fabio Pianesi, Rodolfo Delmonte, 2003, “The syntactic-semantic treebank of Italian. An overview”, Linguistica Computazionale XVI-XVII, pp. 461-492

    ISLRN : 927-246-660-947-9
    Identification
    Période de couverture :
    Version :
    Historique des versions : Last update: 12/2003
    Production
    Date de création : 1999-2001
    Applications
    Applications existantes : Information retrieval
    Informations techniques
    Support de distribution : Downloadable
    Plate-forme : PC
    Format de fichiers : Plain text
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
     
    Prix Membres
    Academic - Commercial 1500.00 EUR
    Academic - Research 100.00 EUR
    Commercial - Commercial 1500.00 EUR
    Commercial - Research 1500.00 EUR
    Prix Non Membres
    Academic - Commercial 2500.00 EUR
    Academic - Research 150.00 EUR
    Commercial - Commercial 2500.00 EUR
    Commercial - Research 2500.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0