TC-STAR English Test Corpora for ASR

View resource name in all available languages

Corpus de test TC-STAR anglais pour l’ASR

500-201-421-691-7

ID:

ELRA-S0253

TC-STAR is a European integrated project focusing on all core technologies for Speech-to-Speech Translation (SST): Automatic Speech Recognition (ASR), Spoken Language Translation (SLT), and Text to Speech Synthesis (TTS).

This corpus consists of 70 hours of recordings of EPPS (European Parliament Plenary Sessions) speeches held or interpreted in European English and other European languages. From this corpus, 16 hours of English speeches (native or non native) were annotated (transcribed). Transcriptions are included in the present package. The data comprises the test (development and evaluation) data for the TC-STAR project in the years 2005, 2006, and 2007. The recordings were obtained from Europe by Satellite (https://ec.europa.eu/avservices/ebs/schedule.cfm) from Oct. until Nov. 2004, June to Nov. 2005, and June until July 2006. The transcription files are stored in Transcriber XML file format.

The speech signals were submitted by EbS via internet in Real Media format and via satellite in MPEG1-layer2 format. The signals were decoded, resampled and are stored in WAVE RIFF (Resource Interchange File Format). Each file contains a single channel with 16-bit resolution at a sample rate of 16kHz.

The speech databases made within the TC-STAR project were validated by SPEX, in the Netherlands, to assess their compliance with the TC-STAR format and content specifications.

View resource description in French

TC-STAR est un projet intégré européen dédié à toutes les technologies de base pour la traduction parole-parole (ou SST pour Speech-to-Speech Translation): reconnaissance automatique de la parole (ou ASR pour « Automatic Speech Recognition »), traduction de la langue parlée (ou SLT pour « Spoken Language Translation ») et technologies texte-parole (ou TTS pour « Text-to-Speech »).

Ce corpus comprend 70 heures de discours réalisés ou interprétés en anglais et dans d’autres langues européennes durant les sessions plénières du Parlement européen (EPPS). Dans ce corpus, 16 heures de discours en anglais (natif et non natif) ont été annotées (transcrites). Les transcriptions sont incluses dans le présent package. Les enregistrements ont été obtenus via Europe by Satellite (https://ec.europa.eu/avservices/ebs/schedule.cfm) d’octobre à novembre 2004, de juin à novembre 2005, et de juin à juillet 2006. Les fichiers de transcription sont stockés au format de fichier XML Transcriber.

Les signaux de parole ont été soumis par EbS via internet au format Real Media et via satellite au format MPEG1-layer2. Les signaux ont été décodés, ré-échantillonnés et stockés en WAVE RIFF (Resource Interchange File Format). Chaque fichier contient un seul canal d’une résolution de 16-bit à un taux d’échantillonnage de 16kHz.

Les bases de données orales produites dans le projet TC-STAR ont été validées par SPEX, Pays-Bas, selon le format et les spécifications de contenu TC-STAR.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
1500.00 € submit
4500.00 € submit
Licence: Commercial Use - ELRA VAR
4500.00 € submit
4500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2250.00 € submit
6750.00 € submit
Licence: Commercial Use - ELRA VAR
6750.00 € submit
6750.00 € submit
15/11/2007
People who looked at this resource also viewed the following:
Resources from the same project