World Intellectual Property Organization

Coup de pouce pour améliorer la traduction automatique des documents de brevets

L'OMPI a le plaisir de mettre à la disposition de la  communauté scientifique et de la communauté R & D un nouveau produit électronique qui contribuera au progrès des systèmes de traduction automatique destinés aux documents de brevets.
 
Appelé " PATENTSCOPE Corpus Of Parallel Patent Applications" (Coppa), ce produit utilise des données issues de la base de recherche de brevets internationaux de l'OMPI pour fournir un "corpus" bilingue constitué de plus de 8 millions de segments de texte parallèles anglais/français, représentant plus de 170 millions de mots. De plus amples détails techniques sont disponibles ici. D'autres paires de langues seront ajoutées dans le futur si les données sources nécessaires deviennent disponibles en volume suffisant avec les droits de redistribution requis.
 
La disponibilité - dans un format adapté - de ce vaste corpus va contribuer de façon significative aux efforts consentis pour construire des systèmes de traduction automatiques plus précis pour les textes de brevets ; meilleurs systèmes de traduction automatiques qui, à leur tour, permettront d'affaiblir la barrière linguistique pour les inventeurs et les bureaux de brevets. Il s'agit en définitive d'améliorer les performances du système international des brevets et l'accessibilité à la bibliothèque globale d'informations technologiques qui y est associée.
 
Les segments parallèles ont été obtenus en alignant les phrases des abrégés et titres de vingt années de demandes de brevet internationales PCT publiées avec leurs traductions  (de 1990 à 2010), les traductions ayant été réalisées par des traducteurs professionnels du domaine des brevets.  Le produit qui en découle constitue une ressource de grande valeur pour la recherche en linguistique, notamment pour des applications telles que l'extraction terminologique, la construction de mémoires de traduction et la recherche en traduction automatique.
 
L'OMPI met à disposition ce corpus gratuitement pour les institutions de recherche académique et privée aux fins de recherche uniquement. En retour, ces institutions s'engagent à partager leurs résultats publiés avec l'OMPI. Le produit est disponible à la vente au prix de 2000 CHF pour les autres usages, sous condition d'une clause de non redistribution.

Explorez l'OMPI