Collins Multilingual database (MLD) – WordBank with audio files

View resource name in all available languages

Base de données multilingue de Collins (MLD) – Wordbank avec fichiers audio

309-438-781-042-2

ID:

ELRA-S0382

The Collins Multilingual database covers Real Life Daily vocabulary. It is composed of a multilingual lexicon in 32 languages (the WordBank, see ELRA-T0376) and a multilingual set of sentences in 28 languages (the PhraseBank, see ELRA-T0377).

This version includes the corresponding audio files covering 26 languages of the 32 languages available in the Collins MLD Wordbank: Arabic, Chinese, Croatian, Czech, Danish, Dutch, American English, British English, Finnish, French, German, Greek, Italian, Japanese, Korean, Norwegian, Polish, Portuguese (Iberian), Portuguese (Brazilian), Russian, Spanish (Iberian), Spanish (Latin American), Swedish, Thai, Turkish, Vietnamese.

The WordBank contains 10,000 words for each language, XML-annotated for part-of-speech, gender, irregular forms and disambiguating information for homographs. An additional dataset of 10,000 headwords is included for 12 languages (Chinese, American and British English, French, German, Italian, Japanese, Korean, Iberian and Brazilian Portuguese, Iberian and Latin American Spanish).

The full database contains 10,000 audio files for each language (26 languages), and 10,000 additional audio files corresponding to the 10,000 additional headwords in 12 languages.

Audio was recorded by native speakers.

View resource description in French

La base de données multilingue de Collins (MLD) couvre le vocabulaire de la vie courante. La base de données contient un lexique multilingue en 32 langues (MLD Wordbank, distribué sous la référence ELRA-T0377) et un jeu de phrases multilingues en 28 langues (MLD PhraseBank, distribué séparément sous la référence ELRA-T0377).

Ce package contient les fichiers audio correspondants aux mots du Wordbank pour 26 des 32 langues de la base de données multilingue de Collins (MLD): arabe, chinois, croate, tchèque, danois, néerlandais, anglais britannique et américain, finnois, français, allemand, grec, italien, japonais, coréen, norvégien, polonais, portugais ibérique et brésilien, russe, espagnol ibérique et latino-américain, suédois, thaï, turc, vietnamien.

Le WordBank contient 10000 mots par langue, annotés au format XML pour les parties du discours, le genre, les formes irrégulières et avec des éléments de désambiguïsation pour les homographes. Un jeu de données additionnel de 10000 mots est inclus pour 12 des 32 langues : allemand, anglais britannique et américain, chinois, coréen, espagnol ibérique et latino-américain, français, italien, japonais, portugais ibérique et brésilien.

Le package complet contient 10000 fichiers audio en 26 langues et 10000 fichiers additionnels en 12 langues. Les enregistrements ont été réalisés par des locuteurs natifs.

MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
3640.00 € submit
NON MEMBERacademiccommercial
Licence: Non Commercial Use - ELRA END USER
5200.00 € submit
13/07/2016
People who looked at this resource also viewed the following: