ELRA ELRA
  Accueil Catalogue » Ressources écrites » Corpus écrits
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Corpus écrits
    Afficher 1 à 20 (sur 71 produits) Pages de résultat :  1  2  3  4  [Suiv >>] 

    E0008
    Package d'évaluation CLEF des campagnes CLEF 2000-2003 (Disponible depuis le 26/09/2006)


    Le package CLEF contient l’ensemble des données utilisées au cours des principales tâches des campagnes d’évaluation CLEF qui ont eu lieu entre 2000 et 2003 : Recherche d’Information Multilingue, Recherche d’Information Bilingue, Recherche d’Information Monolingue et Recherche d’Information sur un Domaine spécifique. Il comprend des corpus multilingues en anglais, français, allemand, italien, espagnol, hollandais, suédois, finnois, russe, et portugais.
    Langue(s) : anglais - français - allemand - italien - espagnol, castillan - néerlandais, flamand - suédois - finnois - russe - portugais

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR
    Prix Spéciaux disponibles sur la fiche.


    E0018
    Package d’évaluation ARCADE II (Disponible depuis le 28/06/2007)


    Le package d’évaluation ARCADE II a été produit dans le cadre du projet national français ARCADE II (« Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne d'évaluation dans le domaine de l'alignement multilingue.
    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ARCADE II. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.
    La campagne se décompose en deux actions : alignement phrastique et traduction d’entités nommées.
    Langue(s) : arabe - chinois - anglais - français - allemand - grec moderne (après 1453) - italien - japonais - persan - russe - espagnol, castillan

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR


    E0019
    Package d’évaluation CESART (Disponible depuis le 28/06/2007)


    Le package d’évaluation CESART a été produit dans le cadre du projet national français CESART (« Campagne d'Evaluation de Systèmes d'Acquisition de Ressources Terminologiques »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne d'évaluation de systèmes d'acquisition de ressources terminologiques.
    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESART. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.
    La campagne se décompose en deux actions : extraction de candidats-termes et extraction de relations.
    Langue(s) : français

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR


    E0020
    Package d’évaluation CESTA (Disponible depuis le 28/06/2007)


    Le package d’évaluation CESTA a été produit dans le cadre du projet national français CESTA (« Campagne d'Evaluation de Systèmes de Traduction Automatique »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne de technologies de traduction automatique.
    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESTA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à des acteurs externes d’évaluer leur propre système.
    La campagne se décompose en deux actions : évaluation sur un vocabulaire non restreint, évaluation sur un domaine spécialisé (évaluation après enrichissement terminologique).
    Langue(s) : anglais >>>> français - arabe >>>> français

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR


    E0022
    Package d’évaluation EQueR (Disponible depuis le 28/06/2007)


    Le package d’évaluation EQueR a été produit dans le cadre du projet national français EQueR (« Evaluation en Question-Réponse »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne d'évaluation des systèmes de question-réponse pour le français.
    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EQueR. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.
    La campagne se décompose en deux actions : une tâche générique et une tâche spécialisée (domaine médical).
    Langue(s) : français

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR


    E0023
    Package d’évaluation EvaSy (Disponible depuis le 28/06/2007)


    Le package d’évaluation EvaSy a été produit dans le cadre du projet national français EvaSy (« Evaluation des systèmes de Synthèse de parole »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne d'évaluation des synthétiseurs à partir du texte en français.
    Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EvaSy. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.
    La campagne se décompose en trois actions : évaluation de la conversion Graphème-Phonème, évaluation de la prosodie, évaluation globale de la qualité des systèmes de synthèse.
    Langue(s) : français

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR


    E0034
    Package d’évaluation EASy (Disponible depuis le 08/07/2009)


    Le package d’évaluation EASy a été produit dans le cadre du projet national français EASy (« Evaluation des Analyseurs Syntaxiques du français »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne d'évaluation des analyseurs syntaxiques du français. Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EASy. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne. La campagne se décompose en deux actions : évaluation sur l’annotation en constituants et évaluation sur l’annotation en relations de dépendances.
    Langue(s) : français

    Membres Academic org. Commercial org.
    Evaluation Use 150.00 EUR 500.00 EUR

    Non Membres Academic org. Commercial org.
    Evaluation Use 300.00 EUR 1000.00 EUR


    W0003
    Corpus CRATER (CRATER)(Disponible depuis le 23/01/1997)


    Corpus aligné multilingue d'1 million de mots en anglais, français et espagnol avec des annotations morphosyntaxiques, ainsi que des outils de lemmatisation et d’extraction de terme pour les trois langues.
    Langue(s) : anglais - français - espagnol, castillan

    Membres Academic org. Commercial org.
    Research Use 20.00 EUR 20.00 EUR
    Commercial Use 20.00 EUR 20.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 100.00 EUR 100.00 EUR
    Commercial Use 100.00 EUR 100.00 EUR


    W0004
    ECI/MCI (European Corpus Initiative/Multilingual Corpus I) (ECI/MCI)(Disponible depuis le 01/09/1996)


    Plus de 98 millions de mots, couvrant la plupart des langues européennes plus le turc, le japonais, le russe, le chinois, le malais, et d’autres encore.
    Langue(s) : turc - albanais - bulgare - chinois - tchèque - néerlandais, flamand - anglais - estonien - français - gaélique, gaélique écossais - allemand - grec moderne (après 1453) - italien - japonais - latin - lituanien - malais - espagnol, castillan - serbe - danois - russe - norvégien - ouszbek - portugais - suédois

    Membres Academic org. Commercial org.
    Research Use 50.00 EUR 50.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 50.00 EUR 50.00 EUR


    W0005
    ECI-ELSNET Sous-corpus balisé en italien et allemand (Disponible depuis le 01/09/1996)


    Les données allemandes sont extraites du quotidien allemand Frankfurter Rundschau du corpus ECI et les données italiennes de ILC/CNR, et traitent toutes de domaines tels que l’économie, la politique, la culture, le sport et les événements locaux.
    Le corpus comprend les domaines suivants: Economie (17,000 mots), Politique (14,000 mots), Culture (18,000 mots), Sports (9,000 mots), Evénements locaux (8,500 mots).
    Langue(s) : italien - allemand

    Membres Academic org. Commercial org.
    Research Use 20.00 EUR 20.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 45.00 EUR 45.00 EUR


    W0008-01
    MTP - Corpus allemand - version non étiquetée (Disponible depuis le 01/09/1996)


    Corpus de 500 000 mots composé de textes, de 1990 à 1992, provenant de 2 journaux allemands, le Frankfurter Allgemeine Zeitung et le Die Zeit (format SGML).
    Langue(s) : allemand

    Membres Academic org. Commercial org.
    Research Use 2000.00 EUR 2000.00 EUR
    Commercial Use 2000.00 EUR 2000.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 3500.00 EUR 3500.00 EUR
    Commercial Use 3500.00 EUR 3500.00 EUR


    W0008-02
    MTP - Corpus allemand annoté - version étiquetée (Disponible depuis le 01/09/1996)


    Corpus de 500 000 mots composé de textes, de 1990 à 1992, provenant de 2 journaux allemands, le Frankfurter Allgemeine Zeitung et le Die Zeit (format SGML).
    Langue(s) : allemand

    Membres Academic org. Commercial org.
    Research Use 8000.00 EUR 8000.00 EUR
    Commercial Use 8000.00 EUR 8000.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 12000.00 EUR 12000.00 EUR
    Commercial Use 12000.00 EUR 12000.00 EUR


    W0010
    Corpus suédois PRESS 65 (Disponible depuis le 23/01/1997)


    Près de 1 million de mots extraits de journaux suédois des éditions de 1965.
    Langue(s) : suédois

    Membres Academic org. Commercial org.
    Research Use 12000.00 EUR 12000.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 20000.00 EUR 20000.00 EUR


    W0011
    Textes balisés en français (MEMODATA) (Disponible depuis le 23/01/1997)


    Plus de 170 livres balisés (littérature classique, textes légaux) avec règles de désambiguisation syntaxiques. Un corpus balisé de 50 livres est disponible pour la recherche. Il s’agit essentiellement de romans du 19e siècle (Balzac, Hugo, Stendhal, ...).
    Voir aussi W0012.
    Langue(s) : français

    Membres Academic org. Commercial org.
    Research Use 1723.00 EUR 2154.00 EUR
    Commercial Use 2154.00 EUR 2154.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 2154.00 EUR 2692.00 EUR
    Commercial Use 2692.00 EUR 2692.00 EUR


    W0012
    Textes balisés en français (MEMODATA) (Disponible depuis le 23/01/1997)


    Plus de 170 livres balisés sont disponibles avec ou sans règles de désambiguisation morphologique. Un corpus balisé de 50 livres est disponible pour la recherche. Il s'agit essentiellement de romans du 19ème siècle (Balzac, Hugo, Stendhal, ...) et de textes juridiques.
    Voir aussi W0011.
    Langue(s) : français

    Membres Academic org. Commercial org.
    Research Use 2461.00 EUR 3077.00 EUR
    Commercial Use 3077.00 EUR 3077.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 3077.00 EUR 3846.00 EUR
    Commercial Use 3846.00 EUR 3846.00 EUR


    W0013
    TSNLP (Séquences de tests pour le traitement du langage naturel) (Disponible depuis le 01/09/1996)


    Séquences de tests pour le traitement du langage naturel. 4 000 entrées (phrases ou fragments de phrases) en anglais, français et allemand.
    Langue(s) : anglais - français - allemand

    Membres Academic org. Commercial org.
    Research Use 100.00 EUR 100.00 EUR
    Commercial Use 100.00 EUR 100.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 100.00 EUR 100.00 EUR
    Commercial Use 100.00 EUR 100.00 EUR


    W0014
    Corpus grec monolingue (Disponible depuis le 17/02/1997)


    Corpus de 1 million de mots constitué d’articles de 1996, extraits du quotidien grec ELEFTHEROTIPIA.
    Langue(s) : grec moderne (après 1453)

    Membres Academic org. Commercial org.
    Research Use 360.00 EUR 360.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 600.00 EUR 600.00 EUR


    W0015
    Corpus de textes du journal "Le Monde" (Disponible depuis le 15/09/1997)


    Corpus du quotidien "Le Monde". L’ensemble des années de données est disponible. Chaque année contient environ 10 Mbytes de données par mois (environ 120 Mbytes par an). Un choix de données de 1987 jusqu'à 2007 est disponible.
    Langue(s) : français

    Membres Academic org. Commercial org.
    Research Use 240.91 EUR 240.91 EUR
    * Prix par année.

    Non Membres Academic org. Commercial org.
    Research Use 313.18 EUR 313.18 EUR
    * Prix par année.


    W0016
    Karl May Korpus (KMK) (Disponible depuis le 28/11/1997)


    Le Karl-May-Korpus est un corpus allemand monolingue, sous format texte ASCII balisé SGML. Il contient les oeuvres de l'auteur allemand Karl May et comprend environ 1,6 million de mots (9 sous-corpus de 180 000 mots chacun environ).
    Langue(s) : allemand

    Membres Academic org. Commercial org.
    Research Use 400.00 EUR 2500.00 EUR
    Commercial Use 2500.00 EUR 2500.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 800.00 EUR 3500.00 EUR
    Commercial Use 3500.00 EUR 3500.00 EUR


    W0017
    Corpus JOC MULTEXT (Disponible depuis le 23/11/1998)


    Ce corpus contient une partie du corpus développé dans le cadre du projet MULTEXT financé par la Commission européenne (LRE 62-050). Cette partie comprend des données brutes, étiquetées et alignées des questions écrites et des réponses du Journal Officiel de la Communauté Européenne. Ce corpus contient environ 5 millions de mots en allemand, anglais, espagnol, français et italien (env. 1 million de mots par langue). Près de 800 000 mots ont été étiquetés grammaticalement et vérifiés manuellement pour l'anglais, le français, l'italien et l'espagnol (env. 200 000 mots par langue). Le même sous-ensemble pour le français, l'allemand, l'italien et l'espagnol a été aligné à l'anglais au niveau de la phrase.
    Langue(s) : anglais - français - allemand - italien - espagnol, castillan

    Membres Academic org. Commercial org.
    Research Use 45.00 EUR 2000.00 EUR
    Commercial Use 2000.00 EUR 2000.00 EUR

    Non Membres Academic org. Commercial org.
    Research Use 100.00 EUR 5000.00 EUR
    Commercial Use 5000.00 EUR 5000.00 EUR


    Afficher 1 à 20 (sur 71 produits) Pages de résultat :  1  2  3  4  [Suiv >>] 

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0