ECPC Corpus (European Comparable and Parallel Corpora of Parliamentary Speeches Archive) – set 1

View resource name in all available languages

Corpus ECPC (European Comparable and Parallel Corpora of Parliamentary Speeches Archive) – ensemble 1

036-939-425-010-1

ID:

ELRA-W0128

The European Comparable and Parallel Corpora of Parliamentary Speeches Archive (ECPC), compiled at the Universitat Jaume I (Spain), is a collection of XML metatextually tagged corpora containing speeches from three European chambers (the European Parliament, the British House of Commons, and the Spanish Congreso de los Diputados). It is a bilingual, bidirectional written corpus in English and Spanish described by Zanettin (2012). This first set (ECPC_EP-05) consists of (1) a "clean" version in XML of European Parliament's 2005 daily sessions; (2) a POS-tagged version of the 2005 daily sessions; and (3) a sentence-based aligned version of 2005 daily sessions. In its raw format, ECPC_EP-05 contains 3,668,476 tokens/words (excluding tagging) in English distributed over 60 utf-8 files and 3,993,867 tokens/words (excluding tagging) in Spanish distributed over 60 utf-8 files.

ECPC_EP-05 by MARÍA CALZADA PÉREZ (as coordinator of the ECPC Research Group, Universitat Jaume I, Spain) is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC-BY-NC-SA 4.0: http://creativecommons.org/licenses/by-nc-sa/4.0). All corpora in the ECPC Archive have been funded by: Universitat Jaume I (UJI-B2017-25 P1·1B2012-64); Generalitat Valenciana (AICO/2017/082): Ministerio de Educación, Cultura y Deporte (FFI2008-01610/FILO; HUM2005-03756/FILO).

View resource description in French

Le Corpus ECPC (European Comparable and Parallel Corpora of Parliamentary Speeches Archive), compilé à l’Universitat Jaume I (Espagne), est une collection de corpus taggés au niveau métatextuel en XML et contenant des discours de trois chambres européennes (le Parlement européen, la Chambre des communes britannique et le Congrès des députés espagnol). C’est un corpus écrit bilingue, bidirectionnel en anglais et en espagnol, tel que décrit par Zanettin (2012). Ce premier ensemble (ECPC_EP-05) est composé des sessions journalières 2005 du Parlement européen avec (1) une version "nettoyée" en XML, (2) une version étiquetée en partie du discours, et (3) une version alignée au niveau des phrases. Dans son format brut, ECPC_EP-05 contient 3,668,476 tokens/mots (en excluant l’étiquetage) en anglais répartis sur plus de 60 fichiers en utf-8 et 3,993,867 tokens/words (en excluant l’étiquetage) en espagnol répartis sur plus de 60 fichiers en utf-8.

ECPC_EP-05 par MARÍA CALZADA PÉREZ (en tant que coordinatrice du groupe de recherche ECPC à l'Universitat Jaume I, Espagne) est distribué sous une licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International (CC-BY-NC-SA 4.0: http://creativecommons.org/licenses/by-nc-sa/4.0). Tous les corpus de l'archive ECPC sont financés par: Universitat Jaume I (UJI-B2017-25 P1·1B2012-64), Generalitat Valenciana (AICO/2017/082), et le Ministerio de Educación, Cultura y Deporte (FFI2008-01610/FILO; HUM2005-03756/FILO).

MEMBERacademiccommercial
Licence: Attribution, Non Commercial Use, Share Alike - CC-BY-NC-SA
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Attribution, Non Commercial Use, Share Alike - CC-BY-NC-SA
0.00 € submit
0.00 € submit
21/12/2018 Downloadable
People who looked at this resource also viewed the following: