PATENTSCOPE
Formatos de datos
Todos los documentos disponibles en el servicio de búsqueda PATENTSCOPE pueden consultarse en PDF y en archivos ZIP (con datos bibliográficos en formato XML e imágenes de páginas completas en formato TIFF). Las solicitudes internacionales PCT publicadas también están disponibles en XML y HTML (con el texto de la descripción y las reivindicaciones obtenido mediante el ROC y en el que se pueden efectuar búsquedas), además de los archivos PDF y ZIP. Por último, las listas de secuencias y los documentos de gran tamaño están disponibles en archivos ZIP.
Texto íntegro de las solicitudes internacionales PCT: las descripciones y reivindicaciones en formato de texto se obtienen mediante un procedimiento de reconocimiento óptico de caracteres (ROC) a partir de la imagen digitalizada del documento. Plantean, por lo tanto, discrepancias con el original y no tienen valor jurídico alguno. Se emplean esos textos para alimentar el motor de indexación del servicio de búsqueda PATENTSCOPE y la Oficina Internacional los pone a disposición del público como un servicio gratuito adicional, principalmente en formato HTML, que puede consultarse en los apartado "Descripción" y "Reivindicaciones" de cada expediente.
Por consiguiente, sólo las versiones en PDF de los documentos que contienen imágenes digitalizadas sin errores pueden ser empleadas a efectos legales.
A título informativo, el índice de exactitud de los textos de solicitudes internacionales publicadas obtenidas a partir de los procedimientos automáticos de ROC del PCT se sitúa generalmente muy por encima del 98,5% por término medio (es decir, menos de 40 errores por página de 3.000 caracteres). Sin embargo, la exactitud puede disminuir significativamente en un pequeño porcentaje de documentos difíciles publicados cada semana. Esto se debe habitualmente a la mala calidad de los originales impresos antes de la digitalización o a páginas con diseños o tipos complejos o que contienen palabras que no pueden hallarse en los diccionarios (las solicitudes contienen a menudo fórmulas químicas o matemáticas impresas en un tipo de letra diminuto).