MTP Annotated German corpus - untagged version

View resource name in all available languages

MTP - Corpus allemand - version non étiquetée

417-827-623-669-9

ID:

ELRA-W0008-01

This morphosyntactically annotated 500,000 word German corpus was developed as part of the Münster Tagging Project (MTP). It comprises a collection of SGML-formatted texts from two German newspapers, "Die Frankfurter Allgemeine Zeitung" and "Die Zeit", for the years 1990 to 1992. The articles reflect the typical distribution of newspaper topics, including economics, regional, national and international politics, the arts, sport, literature, history, science and modern life.
The text was segmented into sentence units and word tokens, and tagged for morphosyntactic POS markers. Two tagsets, which mainly differed in the granularity of the noun and verb tags, and which comprised 137 and 52 tags respectively, were used. Users may obtain annotated versions using either set, each of which comes with documentation and an instruction manual for tag application. A suite of tools, including the MTP taggers and the Xlex workbench for text handling, textual analysis and lexicography, is also available.

View resource description in French

Ce corpus allemand, d'environ 500 000 mots, avec annotation morpho-syntaxique, a été développé dans le cadre du projet MTP (Münster Tagging Project). Il contient un ensemble de textes au format SGML provenant de deux journaux allemands, le "Frankfurter Allgemeine" et le "Die Zeit" , et couvrant les années 1990 à 1992. Les thèmes des articles sont typiques des sujets traités habituellement dans un journal : économie, politique régionale, nationale et internationale, arts, sports, littérature, histoire, science et vie moderne.

Le texte est segmenté en phrases et en mots, et étiqueté par des marqueurs de classes morpho-syntaxiques. Deux types de marqueurs ont été employés, avec respectivement 137 et 52 étiquettes, qui diffèrent principalement par la finesse des catégories pour les noms et les verbes. Le corpus est fourni avec les deux annotations et un manuel d'instructions pour l'étiquetage. Un ensemble d'outils comprenant les systèmes d'annotation du MTP et le logiciel Xlex de manipulation et d'analyse de données textuelles et lexicographiques est également disponible.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
2000.00 € submit
2000.00 € submit
Licence: Commercial Use - ELRA VAR
2000.00 € submit
2000.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
3500.00 € submit
3500.00 € submit
Licence: Commercial Use - ELRA VAR
3500.00 € submit
3500.00 € submit
01/09/1996
People who looked at this resource also viewed the following: