World Intellectual Property Organization

Una ayuda para mejorar la traducción automática de documentos de patentes

La OMPI se complace en presentar a la comunidad científica y de I+D un nuevo producto de datos lingüísticos que contribuirá a mejorar la calidad de los sistemas de traducción automática para documentos de patentes.
 
El Corpus de Solicitudes de Patentes Paralelas (Coppa), de PATENTSCOPE, ofrece, a partir de los datos procedentes de PATENTSCOPE, la base de datos internacional de documentos de patentes de la OMPI, un “corpus” bilingüe de más de 8 millones de segmentos paralelos de texto en inglés y francés que abarcan más de 170 millones de palabras.  Véanse los detalles técnicos aquí. En el futuro se añadirán más pares de lenguas si la OMPI puede disponer de los datos de origen asociados en cantidad suficiente y de los derechos de redistribución necesarios.
 
La disponibilidad, en un formato fácil de utilizar para el usuario, de este vasto corpus será de gran utilidad para aquellas iniciativas que tienen como finalidad diseñar unos sistemas de traducción automática más fieles para textos de patentes. A su vez, unos mejores sistemas de traducción automática reducirán las barreras lingüísticas a las que se enfrentan inventores y oficinas de patentes. Además, unos sistemas de traducción automática más fieles redundarán en la eficacia del sistema internacional de patentes, así como en la accesibilidad al patrimonio global de información tecnológica ahí contenido.
 
Los segmentos paralelos se obtuvieron dividiendo en frases los resúmenes y títulos de veinte años de solicitudes internacionales de patentes presentadas de acuerdo con el PCT (desde 1990 hasta 2010), y buscando a continuación estas frases en las versiones traducidas por profesionales expertos en la traducción de patentes. El producto final es una mina de oro para la investigación en el ámbito lingüístico, en especial para la extracción de terminología, la creación de memorias de traducción y la investigación en el terreno de la traducción automática.
 
La OMPI pone, sin coste alguno, el Corpus a disposición de instituciones académicas y centros privados de investigación que deseen servirse de él únicamente con fines de investigación. A cambio, estas instituciones se comprometen a compartir con la OMPI los resultados publicados. Los interesados en utilizar el producto con fines distintos a los de la investigación académica pueden hacerse con él por 2.000 francos suizos, y están sujetos a una política de no redistribución.


 

La OMPI en Internet