ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : W0042
    Corpus écrit NEMLAR
    Ce corpus a été produit dans le cadre du projet NEMLAR (http://www.nemlar.org). Deux autres ressources, produites dans le cadre du même projet, sont également disponibles : le corpus oral d’actualités radiophoniques NEMLAR (ELRA-S0219) et le corpus de synthèse de parole NEMLAR (ELRA-S0220).

    Le corpus écrit NEMLAR est constitué de 500 000 mots de texte arabe regroupés en 13 catégories différentes, visant à obtenir un corpus bien équilibré qui offre une représentation de la variété de traits syntaxiques, sémantiques et pragmatiques de la langue arabe moderne. Les différentes catégories sont :
    • Actualités politiques : 48 000 mots
    • Débat politique : 30 000 mots
    • Texte Islamique (prières et autres) : 29 000 mots
    • Expressions de mots communs : 8 500 mots
    • Textes extraits d’émissions radiophoniques : 5 500 mots
    • Affaires : 20 000 mots
    • Littérature arabe : 30 000 mots
    • Actualités générales : 100 000 mots
    • Interviews : 56 000 mots
    • Presse scientifique : 50 000 mots
    • Presse sportive : 50 000 mots
    • Explications d’entrées de dictionnaire : 52 000 mots
    • Texte du domaine juridique : 21 000 mots

    La période de temps des données se situe entre la fin des années 1990 jusqu’à 2005.

    Le corpus est fourni sous la forme de 4 versions différentes:
    • Texte brut
    • Texte entièrement voyellé
    • Texte comprenant une analyse lexicale de l’arabe
    • Texte comprenant des étiquettes pour la partie du discours

    Les diacritiques, l’analyse lexicale et les étiquettes pour la partie du discours ont été générées par l’outil Fassieh© de RDI. La précision de l’analyse automatique est d’environ 95%. Afin d’obtenir près de 99% de taux de précision, les linguistes ont utilisé le mode de révision visuelle de Fassieh© où le linguiste doit soit approuver la première analyse comme la plus probable (la plupart du temps) ou sélectionner une autre manuellement (pour une minorité de 4% des cas).

    La base de données est distribuée sur 1 CD-ROM ISO 9660. Elle a été validée par un partenaire externe et un rapport de validation est fourni.
    Production
    Projet : NEMLAR (Network for Euro-Mediterranean LAnguage Resources)
    Informations techniques
    Mode de développement : Semi Automatic
    Support de distribution : CD-ROM
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
    Fichiers complémentaires
  • Télécharger Rapport de validation
  •  
    Prix Membres
    Academic - Commercial 1000.00 EUR
    Academic - Research 150.00 EUR
    Commercial - Commercial 1000.00 EUR
    Commercial - Research 250.00 EUR
    Prix Non Membres
    Academic - Commercial 2000.00 EUR
    Academic - Research 300.00 EUR
    Commercial - Commercial 2000.00 EUR
    Commercial - Research 500.00 EUR

    Prix Spéciaux

    Réductions offertes pour l'achat de plusieurs ressources NEMLAR (W0042, S0219 et S0220):
    • 15% de réduction sur l'achat de 2 ressources,
    • 30% de réduction sur l'achat de 3 ressources.


    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0