|
Au vu des besoins exprimés par les différentes institutions académiques du domaine des technologies de la langue, ELDA a le plaisir de vous proposer un accès à une version de son Catalogue de Ressources Linguistiques, dédiée à la recherche académique. En effet, lors de nos diverses rencontres avec les acteurs du monde académique de la R&D, nous avons constaté l'importance de permettre un accès facile et rapide à une liste de ressources produites tout particulièrement pour des travaux de R&D en technologies de la langue.
Ainsi, nous proposons désormais une liste de ressources linguistiques, disponibles à un tarif très abordable pour la recherche académique et destinées à un usage de recherche. Afin de faciliter l'accès à la liste de ces ressources, nous avons conservé l'interface et les outils de navigation du catalogue ELDA. Bien sûr, à tout moment, vous pouvez choisir de revenir vers la version complète du catalogue. Sous peu, une recherche avancée permettra de naviguer dans notre catalogue grâce à des critères de sélection prédéfinis tels que le type de ressources ou les tarifs disponibles (et bien d'autres critères encore).
Les ressources linguistiques présentées dans ce catalogue sont réparties en 4 catégories : les ressources orales, les ressources écrites, les ressources terminologiques et les ressources multimodales/multimédia.
1/ Les ressources orales
a - Enregistrements par téléphone
Les bases de données présentées dans cette section ont été produites grâce à des enregistrements de locuteurs par téléphone, fixe ou mobile. Ainsi, vous trouverez ici des bases de données orales enregistrées dans différents contextes et environnements, et couvrant un grand nombre de langues européennes et non-européennes (par exemple, les bases de données de la famille SpeechDat).
b - Enregistrements par microphone
Les bases de données présentées dans cette section ont été produites grâce à des enregistrements de locuteurs faits au microphone. Ainsi, vous trouverez ici des bases de données orales enregistrées dans différents contextes et environnements, et couvrant un grand nombre de langues européennes et non-européennes (par exemple, les bases de données du projet BABEL).
c - Ressources de télé-radio-diffusion
Les bases de données présentées dans cette section ont été enregistrées par radio, télévision ou internet (par exemple, le corpus d'actualités radio-diffusées italiennes IBNC).
d - Ressources connexes
Les lexiques phonétiques ou de prononciation, ou les bases de données BDLEX, PHONOLEX et MHATLex sont des exemples du type de ressources contenues ici.
2/ Les ressources écrites
a - Corpus
Cette section comprend des corpus monolingues et multilingues, parallèles ou non, qui peuvent aussi être annotés. Quelques exemples des ressources que vous trouverez sont les corpus développés dans le cadre du projet MULTEXT, les corpus MLCC (corpus multilingues et parallèles), des corpus scientifiques en français, des corpus journalistiques en arabe, etc.
b - Lexiques monolingues
La section dédiée aux lexiques monolingues comprend différents types de dictionnaires, tels que le dictionnaire des verbes français, les lexiques PAROLE dans un grand nombre de langues, etc.
c - Lexiques multilingues
Vous trouverez ici des lexiques et dictionnaires bilingues ou multilingues, dont la base de données EuroWordNet.
3/ Les ressources terminologiques
Des bases de données terminologiques monolingues, bilingues et multilingues sont disponibles ici, couvrant un large panel de domaines de spécialité, tels que l'ingénierie automobile, les assurances, la linguistique, la finance, etc., dans une grande variété de langues.
4/ Les ressources multimodales/multimedia
Les ressources que vous trouverez dans cette section ont été produites grâce à la combinaison de plusieurs modalités (la voix, la gestuelle, le regard, l'écriture, etc.). Les ressources produites dans le cadre du projet M2VTS appartiennent à cette catégorie.
DERNIERES MISES A JOUR :
- Moteur de recherche plus pertinent
- Recherche avancée
|
 |
Nouvelles ressources |
 |
S0307 : Base de données BABEL du polonais La base de données BABEL du polonais est une base de données qui a été produite par un consortium de recherche financé par la Commission européenne dans le cadre du programme COPERNICUS (Projet COPERNICUS 1304). Elle est composée d’ensemble générique "commun" contenant un grand groupe de locuteurs (50 hommes et 50 femmes), un petit groupe de locuteurs (5 hommes et 5 femmes), un très petit groupe de locuteurs (1 homme et 1 femme).
|
S0305 : Corpus EPAC: transcriptions orthographiques Ce corpus contient environ 100 heures de transcriptions orthographiques manuelles réalisées à partir des 1 677 heures d'enregistrements non transcrits de la campagne d'évaluation ESTER (programme Technolangue). Ce corpus contient également les transcriptions automatiques de l'intégralité de ces 1 677 heures.
|
T0373 : BioLexicon BioLexicon est une ressource terminologique en anglais de grande envergure développée dans l’objectif de répondre aux besoins grandissants des efforts de text mining dans le domaine biomédical. Elle comprend plus de 2,2 millions d’entrées lexicales (plus de 3,3 millions de relations sémantiques), ainsi que des informations sur plus de 1,8 millions de variantes et plus de 2 millions de relations synonymiques. BioLexicon est disponible sous la forme d’une base de données relationnelle (format dump MySQL). Il adhère également aux standards EAGLES/ISO relatifs aux ressources lexicales.
|
E0034 : Package d’évaluation EASy Le package d’évaluation EASy a été produit dans le cadre du projet national français EASy (« Evaluation des Analyseurs Syntaxiques du français »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT). Ce projet a permis de réaliser une campagne d'évaluation des analyseurs syntaxiques du français. Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EASy. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne. La campagne se décompose en deux actions : évaluation sur l’annotation en constituants et évaluation sur l’annotation en relations de dépendances.
|
T0372-01 : Dictionnaire multilingue des sports - Base multilingue anglais-français-grec-arabe-allemand-espagnol-portugais Ce dictionnaire a été produit dans le cadre du projet national français EuRADic (Dictionnaire et corpus européens et arabe), du programme Technolangue, financé par le ministère français de l'industrie. Le présent ensemble est constitué d’une base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais. Cette base comporte une nomenclature de 37 500 entrées pour l’anglais, le français, le grec, et l’arabe, 28 000 pour l’espagnol, 22 000 pour l’allemand et 10 000 pour le portugais. Les contenus sont, pour chaque langue :
• Informations obligatoires : terme, grammaire,
• Informations obligatoires sauf si indisponibles (pas de sources) : référence/source,
• Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
• Informations facultatives : définition et source, note linguistique et source, combinatoire, autre forme, synonyme
|
| (dernière mise à jour : juillet 2010) |
|
|