ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-W0050
    Corpus CINTIL – Corpus international du portugais
    CINTIL-Corpus Internacional do Português est un corpus du portugais européen écrit et parlé, fourni avec une interprétation linguistique. Il est composé d’un million d’entrées annotées, chacune d’entre elles ayant été vérifiée par des annotateurs experts humains. L’annotation consiste en des informations sur la partie du discours, les lemmes de classe ouverte et les flexions, ainsi que les expressions composées appartenant à la classe des adverbes et aux classes fermées de la partie du discours, et enfin les noms propres composés (pour la reconnaissance d’entités nommées).

    Le corpus a été développé sur la base de matériel textuel brut de plusieurs types, dont 30% de matériel parlé. Le sous-corpus parlé comprend du matériel de divers registres (tant formel qu’informel) et de diverses situations de communication (par exemple, des appels téléphoniques, des émissions télé-radio-diffusées, des conversations, des monologues, des exposés formels, etc.). Le corpus CINTIL comprend les transcriptions des textes parlés mais n’inclut pas les fichiers sons des interviews enregistrés. Le sous-corpus restant est composé de textes écrits de différents genres: journaux, livres, magazines, périodiques et divers (actes, thèses, essais, etc.). Une vue détaillée de la composition du corpus est présentée ci-dessous:

    • Ecrit= 689 124 tokens:
    o Actualités: 58,7% - 404 690 tokens
    o Fictions: 29% - 200 194 tokens
    o Autres: 12,2% - 84 240 tokens
    • Parlé = 502,622 tokens:
    o Informel/Privé: 43,2% - 217 604 tokens
    o Informel/Publique: 9,5% - 48 221 tokens
    o Informel/Téléphone: 0,4% - 2 287 tokens
    o Formel/Naturel: 19,3% - 97 499 tokens
    o Formel/Médias: 17,6% - 88 727 tokens
    o Formel/Téléphone: 9,6% - 48 284 tokens
    • Total = 1 191 746 tokens

    Informations linguistiques:
    Le corpus met en relation des informations linguistiques de textes bruts de différente nature et de différents niveaux de complexité. Ces informations sont codées selon un format habituel d’étiquettes, dont l’exactitude a été vérifiée par des linguistes entraînés, recouvrant quatre niveaux d’informations :
    • Segmentation: Les limites de chaque phrase sont étiquetées et chaque élément est limité par des espaces. Les contractions sont étendues, les clitiques en enclise et mésoclise sont décomposés en éléments autonomes, et la ponctuation est associée à des informations explicites concernant les espaces les limitant dans la version brute. Les expressions composées venant de certaines classes de la partie du discours (par exemple les conjonctions, les prépositions, etc.) sont identifiées comme formant une unité lexicale.
    • Partie du discours: Chaque entrée est associée à une information sur sa catégorie morpho-syntaxique au moyen d’étiquettes correspondant à la partie du discours.
    • Flexion: Informations concernant la morphologie flexionnelle: chaque entrée fléchie est associée au lemme correspondant et présente une information explicite des valeurs correspondant au mode, temps, personne et nombre pour les classes verbales, ou au nombre et genre pour les classes nominales. Les classes nominales comprennent également des informations sur le degré, c’est-à-dire les superlatifs pour les adjectifs et les diminutifs à la fois pour les adjectifs et les noms.
    • Unités lexicales composées (« Multiword Lexical Units ») pour la reconnaissance d’entités nommées: Délimitation et classification des expressions composées pour les entités nommées en suivant le schéma d’étiquetage habituel IOB pour la reconnaissance d’entités nommées, et les classes classiques de nombre, date, personne, lieux, etc.

    Le manuel d’annotation est fourni avec le corpus.

    Une recherche dans le corpus peut être effectuée en ligne: http://cintil.ul.pt/

    ISLRN : 176-775-844-396-0
    Informations techniques
    Compression : None
    Support de distribution : Downloadable
    Plate-forme : PC#Unix#Macintosh
    Format de fichiers : Plain text
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
    Fichiers complémentaires
  • Télécharger Description : Tagset information
  •  
    Prix Membres
    Academic - Commercial 10000.00 EUR
    Academic - Research 250.00 EUR
    Commercial - Commercial 10000.00 EUR
    Commercial - Research 10000.00 EUR
    Prix Non Membres
    Academic - Commercial 15000.00 EUR
    Academic - Research 250.00 EUR
    Commercial - Commercial 15000.00 EUR
    Commercial - Research 15000.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0