ELRA ELRA
  Accueil Catalogue
Ressources Linguistiques
Rapports d'incidents
Envoyez-nous vos rapports d'incidents.
Consulter le catalogue
 
Utilisez des mots-clés pour trouver le produit que vous recherchez.
Recherche avancée
Langue(s)
Anglais Français
Informations
  • Procédure & Conditions d'achat

  • Prix et licences d'utilisation

  • Comment promouvoir vos ressources ?

  • Contactez-nous
  • Référence Catalogue : ELRA-S0391
    Corpus oral FAME!
    La collection de données en frison est composée de ressources linguistiques de parole rassemblées afin de concevoir un système de reconnaissance automatique de la parole sur large vocabulaire pour la langue frisonne.

    Tout d’abord, une base de données télé-radio-diffusées a été créée en collectant des enregistrements des archives de la chaîne régionale Omrop Fryslân, et en les annotant avec des informations variées telles que les changements de langue et les details des locuteurs.

    Le deuxième composant de cette collection est un modèle de langage créé sur la base d’un corpus textuel avec un vocabulaire divers.

    Le troisième composant est un dictionnaire phonétique du frison comprenant les correspondances entre les mots et phones frisons qui a été constitués afin de rendre le système de reconnaissance viable pour cette langue peu fournie en ressources.

    Enfin, une formule pour le système de reconnaissance automatique a été fournie. Elle utilise les ressources précédemment citées afin de réaliser le travail de reconnaissance et de ressortir des résultats avec exactitude.

    Le corpus comprend 203 segments audio d’environ 5 minutes chacun, extraits de divers programmes radio couvrant un éventail temporel de près de 50 ans (1966-2015), permettant d’ajouter une dimension longitudinale à la base de données.
    Le contenu des enregistrements est très varié et inclut des programmes radio sur la culture, l’histoire, la littérature, le sport, la nature, l’agriculture, la politique, la société et les langues.

    La durée totale des annotations manuelles des enregistrements radio totalise 18 heures, 33 minutes et 57 secondes. Les données audio stéréo ont une fréquence d’échantillonnage de 48 kHz et une résolution de 16-bit par échantillon. La méta-information disponible a permis aux annotateurs d’identifier les locuteurs et de les marquer en indiquant leurs noms ou en ajoutant une étiquette si le nom n’était pas connu. 309 locuteurs sont identifiés dans le corpus oral FAME!, dont 21 apparaissant au moins 3 fois dans la base de données. Ces locuteurs sont principalement des présentateurs de programmes ou des célébrités apparaissant plusieurs fois dans différents enregistrements sur plusieurs années. 233 locuteurs n’ont pu être identifiés à cause du manque de méta-information. Les cas de changements de code au niveau du mot et de la phrase se montent à 3837.

    Les portions de musique ont été remplacées par du bruit, excepté lorsqu’elles se trouvent superposées à la parole.

    ISLRN : 340-994-352-616-4
    Applications
    Applications existantes : Speech recognition
    Informations techniques
    Support de distribution : Downloadable
    Contenus Cliquer sur la flèche afin d'afficher les informations des contenus.
     speech corpus 
     
    Prix Membres
    Academic - Commercial 1500.00 EUR
    Academic - Research Free
    Commercial - Commercial 1500.00 EUR
    Commercial - Research 1500.00 EUR
    Prix Non Membres
    Academic - Commercial 3500.00 EUR
    Academic - Research Free
    Commercial - Commercial 3500.00 EUR
    Commercial - Research 3500.00 EUR

    Copyright © 2008 ELRA
    ELRACatalogue 0.8.0