ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-W0119
    Corpus Helsinki du Swahili
    Ce corpus contient 25 millions de mots en swahili, annotés en partie du discours, morphologie et syntaxe. Il contient du texte de différents domaines: fiction, actualités journalistiques et documents gouvernementaux, sur une période allant de 1953 à 2016.

    Le package contient :
    - le corpus Helsinki du Swahili 2.0 version non-annotée: textes bruts formatés et corrigés
    - le corpus Helsinki du Swahili 2.0 version annotée: textes annotés avec Salama Tagger et métadonnées intégrées à chaque fichier

    Les textes sources ont été collectés sur le Web (textes d’actualités journalistiques collectés entre 1988 et 2016, contenu de sites gouvernementaux entre 2004 et 2006) et à partir de livres (textes collectés entre 1953 et 1991, scannés et révisés). La partie la plus ancienne du contenu journalistique datant d’avant les scanners a été saisie manuellement.

    La section "Old material" contient les textes collectés avant 2003: livres (répertoire "Books") et contenu journalistique (répertoire "News").
    La section "New material" contient une partie "Bunge" (transcriptions officielles des débats du Parlement Tanzanien entre 2004 et 2006) et une partie "News" (contenu journalistique collecté entre 2004 et 2015).

    Chaque mot dans le corpus annoté contient les informations suivantes: token, lemme, partie du discours, description morphologique, étiquette syntaxique, reste de la description du verbe.

    Le corpus a été produit à l’Université d’Helsinki, Département des Etudes Asiatiques et Africaines sous les auspices du Professeur Arvi Hurskainen.

    Le corpus est accessible par ELRA pour un usage commercial uniquement. Pour un usage de recherche, se référer à Kielipankki - the Language Bank of Finland in Korp (https://korp.csc.fi/).

    Une version du corpus contenant des gloses en anglais, dans lequel chaque mot du corpus est associé à un ou plusieurs équivalents, est accessible sur demande uniquement (termes à discuter au cas par cas).

    ISLRN : 941-187-059-145-7
    Identification
    Période de couverture :
    Version : 2.0
    Historique des versions :
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
    written corpus 
     
    Prix Membres
    * Pour un usage de recherche, se référer à Kielipankki - the Language Bank of Finland in Korp (https://korp.csc.fi/).
    Academic - Commercial 7500.00 EUR
    Commercial - Commercial 7500.00 EUR
    Prix Non Membres
    * Pour un usage de recherche, se référer à Kielipankki - the Language Bank of Finland in Korp (https://korp.csc.fi/).
    Academic - Commercial 15000.00 EUR
    Commercial - Commercial 15000.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0