Documentos PDF en los que se puede buscar

No creas que existe una definición sencilla. Creo que es uno de esos aspectos técnicos que todos dan por sentado o que tienen varias soluciones y ninguna es absoluta. En cualquier caso tengo la sensación de haber vivido esto antes, y no hace mucho.

Da igual, el caso es que estoy creando la versión para imprimir del catálogo web de mi empresa y estoy empleando un buen número de pequeñas herramientas para hacer el trabajo. Entre ellas está

ps2pdf

del paquete

ghostscript

y hasta ahora todo iba más o menos bien, pero me he dado cuenta de que no puedo buscar texto en los PDF y, oye, que es absurdo que pudiendo hacerse no se haga, ¿ no ?.

También da lo mismo. Quiero hacerlo así y he buscado por todas partes una respuesta clara y breve pero sólo he encontrado algunas pistas que seguir. En una de las respuestas de un foro de Google se hace incapié en que

gs

debe incluir los textos como tales y no como mapas de bits, pero no explica cuál es la opción para ello. Indica que tiene que ser una versión moderna del programa, lo que lo convierte en una respuesta correcta pero inútil.

Sigo buscando por la red intentando encontrar la diferencia interior entre un PDF donde se puede buscar de otro que no, y cómo crear el primer tipo.

Y encuentro una referencia de esas que convierte mi vida casi en la de un arqueólogo. Se trata de una página con el manual del programa

ps2pdf

, versión 5.50, en la que explica que, a excepción de las catorce tipografías estándar[1] de los PDF, todas las demás se convierten a mapas de bit y mezclan los códigos de los caracteres de tal manera que la salida no es buscable. También comentan que esperan arreglarlo para finales del año 1998.

Jo. ¿ Me toca ahora bucear entre los registros de cambios para ver si se llegó a arreglar o no ?. De momento veamos si podemos decirle que incluya los fuentes esos en nuestro catálogo y lo mismo hasta podemos dejarlo en eso.

Y otra búsqueda un poco más ajustada me lleva a la FAQ de una publicación científica especializada en física llamada IOPscience en la que aconsejan emplear «buenas» tipografías, concretamente hablan de emplear Tipo 1 en lugar de Tipo 3, de cómo asegurarse de que las fuentes están insertas en el documento usando programas como

pdffonts

, y de usar las opciones adecuadas en los programas

ps2pdf

y familia.

En mi caso he visto que me ponga como me ponga no hay manera. El documento PDF no tiene las tipografías embebidas y no hay forma de buscar en él.

Por el momento …

Notes

[1] Son la Courier, la Helvetica, la familia Times, la Symbol y la ZapfDingbats