ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Catalogue de Ressources Linguistiques

    ELRA met à disposition des Ressources Linguistiques gratuites.


    Le Catalogue de Ressources Linguistiques d’ELRA présente un répertoire des Ressources Linguistiques (RL) mises à disposition par ELRA.


    (voir l’image pleine page)

    Un nombre croissant de RL couvrant différents domaines des technologies de la langue (voir illustration à gauche) sont distribuées par ELDA, le corps opérationnel d’ELRA, grâce aux contributions de divers acteurs de la communauté des technologies de la langue.

    Notre objectif, à travers ce répertoire, est de mettre des ressources linguistiques à la disposition de la communauté pour éviter aux chercheurs et aux développeurs de perdre du temps à produire des ressources qui existent déjà, mais aussi pour les aider à identifier ces ressources et à y accéder.

    D’autres ressources identifiées, mais non disponibles via ELRA, sont présentées dans le Catalogue Universel.

    Pour toute suggestion ou commentaire, ou pour toute demande d’information sur ELRA et son Catalogue de Ressources Linguistiques, rendez-vous à la section Contactez-nous.

    ELRA est partenaire de OLAC (Open Language Archives Community). Le catalogue ELRA peut être visualisé sous la forme d’une archive OLAC.

    Nouvelles ressources
  • ELRA-L0098 : Dictionnaire arabe de mots fléchis
    Ce dictionnaire comprend une liste de 6
    millions de formes fléchies, entièrement
    voyellisées, et étiquetées avec des
    informations grammaticales comprenant la
    partie du discours et les attributs
    grammaticaux, dont le nombre, le genre,
    le cas, la définitude, le temps, le mode
    et la compatibilité avec l’agglutination
    de clitiques. Les données sont
    formattées aux formats
    Unitex/GramLab. Ce dictionnaire est
    également disponible avec reconnaissance
    de clitiques agglutinés et système de
    flexions dans le Catalogue ELRA sous la
    référence ELRA-L0099.

  • ELRA-L0099 : Dictionnaire arabe de mots fléchis avec reconnaissance de clitiques agglutinés et système de flexions
    Ce dictionnaire comprend une liste de 6
    millions de formes fléchies, entièrement
    voyellisées, et étiquetées avec des
    informations grammaticales comprenant la
    partie du discours et les attributs
    grammaticaux, dont le nombre, le genre,
    le cas, la définitude, le temps, le mode
    et la compatibilité avec l’agglutination
    de clitiques. Il est accompagné d’une
    ressource grammaticale qui permet de
    reconnaître des centaines de millions de
    mots valides agglutinés. Afin de
    permettre la mise à jour du
    dictionnaire, un dictionnaire de 65 000
    lemmes est également fourni ainsi que
    les données requises pour permettre de
    produire les flexions et regénérer le
    dictionnaire. Les données sont
    formattées aux formats
    Unitex/GramLab. Ce dictionnaire est
    également disponible sans reconnaissance
    de clitiques agglutinés et sans système
    de flexions dans le Catalogue ELRA sous
    la référence ELRA-L0098.

  • ELRA-W0119 : Corpus Helsinki du Swahili
    Ce corpus contient 25 millions de mots
    en swahili, annotés en partie du
    discours, morphologie et syntaxe. Il
    contient du texte de différents
    domaines: fiction, actualités
    journalistiques et documents
    gouvernementaux, sur une période allant
    de 1953 à 2016.

  • ELRA-W0120 : Corpus NUM 5M de textes en mongol
    Il s’agit d’un corpus de textes en
    mongol contenant provenant
    principalement de quotidiens en ligne ou
    papier, de livres et de textes
    juridiques pour un total de 4,8 millions
    de mots. Une partie du corpus, environ
    2800 phrases (100000 mots), a été
    annotée manuellement en partie du
    discours et standardisée au format XML
    TEI.

  • ELRA-S0393 : Corpus oral persan
    Ce corpus a été enregistré en persan
    (accent de Téhéran) par un locuteur
    homme dans un studio professionnel, à
    partir d’un microphone de modèle
    "Blubbery". La parole synthétisée donnée
    résultant de ce corpus a permis de
    produire une voix naturelle de haute
    qualité. Elle comprend 399 occurrences
    pour un total d’environ 2,5 heures, avec
    les transcriptions orthographiques et
    phonétiques.

  • (dernière mise à jour : octobre 2017)

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0