LC-STAR English-Slovenian Bilingual Aligned Phrasal lexicon

View resource name in all available languages

Lexique aligné anglais-slovène de locutions LC-STAR

336-577-115-310-7

ID:

ELRA-S0274

The LC-STAR English-Slovenian Bilingual Aligned Phrasal lexicon was created within the scope of the LC-STAR project (IST 2001-32216) which was sponsored by the European Commission. It was designed for SST (Speech-to-Speech Translation).

The lexicon comprises 12,722 phrases from the tourist domain. It is based on a list of short sentences obtained by translation from a US-English 10,522 phrase corpus. The total number of unique separate words is 43,209.

The lexicon contains the following information:
- US-English phrase (orthography),
- its translation into Slovenian (orthography),
and for each token in Slovenian a phrase provides the following:
- orthography of a word,
- part of speech,
- lemma,
- whether the phrase is idiomatic or not,
- if a word is a foreign word. In this lexicon, foreign words were only tagged if they were written with foreign orthography (e.g. English characters).

The lexicon is provided in XML format. The database is stored on 1 CD.

View resource description in French

Le lexique aligné anglais-slovène de locutions LC-STAR a été créé dans le cadre du projet LC-STAR (IST 2001-32216), financé par la Commission européenne. Il a été conçu pour des applications en traduction parole-parole (SST - Speech-to-Speech Translation).

Le lexique comprend 12 722 locutions du domaine du tourisme. Il est basé sur une liste de phrases courtes obtenue par la traduction d’un corpus de 10 522 locutions en anglais américain. Le nombre total de mots uniques séparés est de 43 209.

Le lexique contient les informations suivantes :
- la locution en anglais américain (orthographe),
- sa traduction en slovène (orthographe),
et pour chaque élément dans la locution en slovène:
- l’orthographe du mot,
- la partie du discours,
- le lemme,
- si la locution est idiomatique ou non,
- si un mot est un mot étranger. Dans ce lexique, les mots étrangers ont été étiquetés uniquement lorsqu’ils sont écrits dans une orthographe étrangère (par exemple, des caractères en anglais).

Le lexique est fourni au format XML. La base de données est stockée sur 1 CD.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
3750.00 € submit
5500.00 € submit
Licence: Commercial Use - ELRA VAR
5500.00 € submit
5500.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
4875.00 € submit
7150.00 € submit
Licence: Commercial Use - ELRA VAR
7150.00 € submit
7150.00 € submit
22/04/2008
People who looked at this resource also viewed the following:
Resources from the same project