Slovenian BNSI Broadcast News Speech Corpus

View resource name in all available languages

Corpus d'actualités télé-diffusées slovènes BNSI

502-280-144-938-4

ID:

ELRA-S0275

This speech database consists of TV news shows (both evening news, “TV Dnevnik” and late night news, “Odmevi”), from the archive of a Slovenian national broadcaster RTV Slovenia. The recordings took place between June 1999 and May 2003.

The database comprises a total of 36 hours of recordings (training set: 30 hours, development set: 3 hours and test set: 3 hours), transcribed and manually checked using the Transcriber tool. Transcription conventions are based on documents defined by LDC, LIMSI and COST 278 BN SIG. There are 268,000 words in transcriptions, out of which 37,000 are distinct words. The transcription files contain: orthographic transcriptions, information on acoustic conditions and background, segmentation on turn and section level. The topic is described and marked (25 topic categories) for each section of news show. Speaker information consists of gender, speaking style, accent and origin.

1,565 speakers were recorded (1,069 males, 477 females, 19 unspecified).

The speech signal is as follows: 16kHz, 16 bit, WAV, 1 channel.

View resource description in French

Cette base de données de parole contient des emissions d’actualités télévisées (actualités de la soirée “TV Dnevnik” et de la nuit “Odmevi”), des archives de la télévision nationale slovène RTV Slovenia. Les enregistrements ont été réalisés entre juin 1999 et mai 2003.

La base de données comprend un total de 36 heures d’enregistrements (données d’entraînement : 30 heures, données de développement : 3 heures et données de test : 3 heures), transcrites et vérifiées manuellement en utilisant l’outil Transcriber. Les conventions de transcription sont basées sur les documents définis par le LDC, le LIMSI et dans COST 278 BN SIG. Les transcriptions contiennent 268 000 mots, dont 37 000 mots distincts. Les fichiers de transcriptions comprennent : les transcriptions orthographiques, l’information sur les conditions acoustiques et environnementales, la segmentation au niveau des tours de paroles et des sections. Le thème est décrit et marqué (25 catégories de thèmes) pour chaque section d’émission d’actualités. L’information sur le locuteur consiste en: le genre, le style de parole, l’accent et l’origine.

1 565 locuteurs ont été enregistrés (1 069 hommes, 477 femmes, 19 non spécifiés).

Le signal de parole est le suivant : 16kHz, 16 bit, WAV, 1 canal.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
6000.00 € submit
19000.00 € submit
Licence: Commercial Use - ELRA VAR
19000.00 € submit
19000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
10000.00 € submit
33000.00 € submit
Licence: Commercial Use - ELRA VAR
33000.00 € submit
33000.00 € submit
22/04/2008
People who looked at this resource also viewed the following: