Tham Khasi annotated corpus

View resource name in all available languages

Corpus annoté en Khasi (Tham)




The Tham Khasi annotated corpus is a Khasi corpus, an Austro-Asiatic language, comprising of Khasi sentences extracted from textbooks prescribed for students in secondary, higher secondary, graduation, and post-graduation in the year 2015-2016. In the corpus, each word is separated by a space and each sentence is marked with an end of sentence marker such as a period (.), a question mark (?) or an exclamation mark (!). The sentences are manually tagged for parts of speech using the BIS (Bureau of Indian Standards) tagset which is the standard annotation scheme prescribed for Indian languages. The corpus contains 83,312 words, 4,386 sentences, 5,465 word types which amounts to 94,651 tokens (including punctuations). The corpus is provided as one single file in text format.

View resource description in French

Le corpus annoté Tham Khasi comprend des phrases en Khasi, une langue austro-asiatique, extraites à partir de manuels scolaires destinés à des étudiants de niveaux secondaire, lycée et d’études supérieures pendant l’année 2015-2016. Chaque mot du corpus est séparé par un espace et chaque fin phrase est marquée par des signes de ponctuation comme le point (.), point d’interrogation (?) ou point d’exclamation (!). L’annotation des phrases en partie du discours a été réalisée en utilisant le standard d’annotation BIS (Bureau Indien des Standards) qui est la norme d’annotation pour les langues indiennes. Le corpus contient 83312 mots, 4386 phrases et 5465 types de mots pour un total de 94651 tokens (ponctuations inclues). Le corpus est fourni sous la forme d’un seul fichier au format texte.

Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
0.00 € submit
0.00 € submit
Licence: Commercial Use - ELRA VAR
0.00 € submit
0.00 € submit
People who looked at this resource also viewed the following: