ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Catalogue de Ressources Linguistiques R&D Catalogue de Ressources Linguistiques R&D

    Au vu des besoins exprimés par les différentes institutions académiques du domaine des technologies de la langue, ELDA a le plaisir de vous proposer un accès à une version de son Catalogue de Ressources Linguistiques, dédiée à la recherche académique. En effet, lors de nos diverses rencontres avec les acteurs du monde académique de la R&D, nous avons constaté l'importance de permettre un accès facile et rapide à une liste de ressources produites tout particulièrement pour des travaux de R&D en technologies de la langue.

    Ainsi, nous proposons désormais une liste de ressources linguistiques, disponibles à un tarif très abordable pour la recherche académique et destinées à un usage de recherche. Afin de faciliter l'accès à la liste de ces ressources, nous avons conservé l'interface et les outils de navigation du catalogue ELDA. Bien sûr, à tout moment, vous pouvez choisir de revenir vers la version complète du catalogue. Sous peu, une recherche avancée permettra de naviguer dans notre catalogue grâce à des critères de sélection prédéfinis tels que le type de ressources ou les tarifs disponibles (et bien d'autres critères encore).

    Les ressources linguistiques présentées dans ce catalogue sont réparties en 4 catégories : les ressources orales, les ressources écrites, les ressources terminologiques et les ressources multimodales/multimédia.

    1/ Les ressources orales

    a - Enregistrements par téléphone
    Les bases de données présentées dans cette section ont été produites grâce à des enregistrements de locuteurs par téléphone, fixe ou mobile. Ainsi, vous trouverez ici des bases de données orales enregistrées dans différents contextes et environnements, et couvrant un grand nombre de langues européennes et non-européennes (par exemple, les bases de données de la famille SpeechDat).

    b - Enregistrements par microphone
    Les bases de données présentées dans cette section ont été produites grâce à des enregistrements de locuteurs faits au microphone. Ainsi, vous trouverez ici des bases de données orales enregistrées dans différents contextes et environnements, et couvrant un grand nombre de langues européennes et non-européennes (par exemple, les bases de données du projet BABEL).

    c - Ressources de télé-radio-diffusion
    Les bases de données présentées dans cette section ont été enregistrées par radio, télévision ou internet (par exemple, le corpus d'actualités radio-diffusées italiennes IBNC).

    d - Ressources connexes
    Les lexiques phonétiques ou de prononciation, ou les bases de données BDLEX, PHONOLEX et MHATLex sont des exemples du type de ressources contenues ici.

    2/ Les ressources écrites

    a - Corpus
    Cette section comprend des corpus monolingues et multilingues, parallèles ou non, qui peuvent aussi être annotés. Quelques exemples des ressources que vous trouverez sont les corpus développés dans le cadre du projet MULTEXT, les corpus MLCC (corpus multilingues et parallèles), des corpus scientifiques en français, des corpus journalistiques en arabe, etc.

    b - Lexiques monolingues
    La section dédiée aux lexiques monolingues comprend différents types de dictionnaires, tels que le dictionnaire des verbes français, les lexiques PAROLE dans un grand nombre de langues, etc.

    c - Lexiques multilingues
    Vous trouverez ici des lexiques et dictionnaires bilingues ou multilingues, dont la base de données EuroWordNet.

    3/ Les ressources terminologiques

    Des bases de données terminologiques monolingues, bilingues et multilingues sont disponibles ici, couvrant un large panel de domaines de spécialité, tels que l'ingénierie automobile, les assurances, la linguistique, la finance, etc., dans une grande variété de langues.

    4/ Les ressources multimodales/multimedia

    Les ressources que vous trouverez dans cette section ont été produites grâce à la combinaison de plusieurs modalités (la voix, la gestuelle, le regard, l'écriture, etc.). Les ressources produites dans le cadre du projet M2VTS appartiennent à cette catégorie.


    DERNIERES MISES A JOUR :

    • Moteur de recherche plus pertinent
    • Recherche avancée

    Nouvelles ressources
  • S0307 : Base de données BABEL du polonais
    La base de données BABEL du polonais est
    une base de données qui a été produite
    par un consortium de recherche financé
    par la Commission européenne dans le
    cadre du programme COPERNICUS (Projet
    COPERNICUS 1304). Elle est composée
    d’ensemble générique "commun" contenant
    un grand groupe de locuteurs (50 hommes
    et 50 femmes), un petit groupe de
    locuteurs (5 hommes et 5 femmes), un
    très petit groupe de locuteurs (1 homme
    et 1 femme).

  • S0305 : Corpus EPAC: transcriptions orthographiques
    Ce corpus contient environ 100 heures de
    transcriptions orthographiques manuelles
    réalisées à partir des 1 677 heures
    d'enregistrements non transcrits de la
    campagne d'évaluation ESTER (programme
    Technolangue). Ce corpus contient
    également les transcriptions
    automatiques de l'intégralité de ces 1
    677 heures.

  • T0373 : BioLexicon
    BioLexicon est une ressource
    terminologique en anglais de grande
    envergure développée dans l’objectif de
    répondre aux besoins grandissants des
    efforts de text mining dans le domaine
    biomédical. Elle comprend plus de 2,2
    millions d’entrées lexicales (plus de
    3,3 millions de relations sémantiques),
    ainsi que des informations sur plus de
    1,8 millions de variantes et plus de 2
    millions de relations synonymiques.
    BioLexicon est disponible sous la forme
    d’une base de données relationnelle
    (format dump MySQL). Il adhère également
    aux standards EAGLES/ISO relatifs aux
    ressources lexicales.

  • E0034 : Package d’évaluation EASy
    Le package d’évaluation EASy a été
    produit dans le cadre du projet national
    français EASy (« Evaluation des
    Analyseurs Syntaxiques du français »),
    issu du programme Technolangue, financé
    par le Ministère français délégué à la
    Recherche et aux Nouvelles Technologies
    (MRNT). Ce projet a permis de réaliser
    une campagne d'évaluation des analyseurs
    syntaxiques du français. Ce package
    comprend l’ensemble des données
    utilisées lors de la campagne
    d’évaluation EASy. Il regroupe des
    ressources, des protocoles, des outils
    de notation, les résultats de la
    campagne officielle, etc., qui ont été
    utilisés ou produits pendant la
    campagne. Le but de ce « package »
    d’évaluation est de permettre à tout
    acteur externe de pouvoir évaluer son
    propre système et ainsi de pouvoir
    comparer ses résultats à ceux obtenus
    pendant la campagne. La campagne se
    décompose en deux actions : évaluation
    sur l’annotation en constituants et
    évaluation sur l’annotation en relations
    de dépendances.

  • T0372-01 : Dictionnaire multilingue des sports - Base multilingue anglais-français-grec-arabe-allemand-espagnol-portugais
    Ce dictionnaire a été produit dans le
    cadre du projet national français
    EuRADic (Dictionnaire et corpus
    européens et arabe), du programme
    Technolangue, financé par le ministère
    français de l'industrie. Le présent
    ensemble est constitué d’une base
    multilingue anglais – français – grec –
    arabe – allemand – espagnol – portugais.
    Cette base comporte une nomenclature de
    37 500 entrées pour l’anglais, le
    français, le grec, et l’arabe, 28 000
    pour l’espagnol, 22 000 pour l’allemand
    et 10 000 pour le portugais. Les
    contenus sont, pour chaque langue
    : • Informations obligatoires : terme,
    grammaire, • Informations obligatoires
    sauf si indisponibles (pas de sources) :
    référence/source, • Informations
    obligatoires et communes : champ
    (sport), domaine, circonscription
    additionnelle • Informations
    facultatives : définition et source,
    note linguistique et source,
    combinatoire, autre forme, synonyme

  • (dernière mise à jour : juillet 2010)

    Copyright © 2006 ELRA
    ELRACatalogue R&D 0.8.0