{"id":2930,"date":"2019-05-14T10:12:50","date_gmt":"2019-05-14T09:12:50","guid":{"rendered":"https:\/\/esferas.org\/msqlu\/?p=2930"},"modified":"2019-05-14T16:27:11","modified_gmt":"2019-05-14T15:27:11","slug":"procesando-un-documento-escaneado","status":"publish","type":"post","link":"https:\/\/esferas.org\/msqlu\/2019\/05\/14\/procesando-un-documento-escaneado\/","title":{"rendered":"Procesando un documento escaneado &#8230;"},"content":{"rendered":"\n<p>&#8230; para que pueda ser mejor transportado y m\u00e1s \u00fatil. <\/p>\n\n\n\n<!--more-->\n\n\n\n<p>Desde hace un tiempo estoy guardando cualquier documento en papel en digital por aquello de tenerlo m\u00e1s a mano a la hora de enviar o compartir. De hecho es ahora cuando m\u00e1s uso le estoy dando al esc\u00e1ner casero que tengo desde hace a\u00f1os, un <a href=\"https:\/\/epson.com\/Support\/Scanners\/Perfection-Series\/Epson-Perfection-2400-Photo\/s\/SPT_B11B152011\">Epson Perfection 2400 PHOTO<\/a> (GT-9300UF), que sigue funcionando de maravilla. <\/p>\n\n\n\n<p>Basta con limpiarlo regularmente y emplear un programa m\u00e1s sencillo que <a href=\"http:\/\/sane-project.org\/\">xsane<\/a> como <a href=\"https:\/\/launchpad.net\/simple-scan\">Simple Scan<\/a>. Este \u00faltimo te crea siempre un PDF con las p\u00e1ginas insertas como im\u00e1genes con un simple <em>click<\/em>; una a una, es verdad, pero cuando le coges el truco sorprende lo c\u00f3modo y r\u00e1pido que puede ser. <\/p>\n\n\n\n<p>Pues bien, el caso es que es tan simple de usar que hay poco que cambiar en las opciones de escaneado y los documentos suelen ser bastante monstruosos. Por una parte cada hoja puede llegar a ocupar casi tres mega bytes de tama\u00f1o y por otra, al ser s\u00f3lo im\u00e1genes, se pierde la parte textual que tan \u00fatil es para realizar b\u00fasquedas o extraer textos. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Reducir el tama\u00f1o<\/h2>\n\n\n\n<p>Para reducir su tama\u00f1o podemos recurrir a la herramienta <em>gs<\/em> del paquete <a href=\"http:\/\/www.ghostscript.com\/\">Ghostscript<\/a>, antigua y fiable, que con algo como lo siguiente te deja el documento liviano y legible. <\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">$<code>gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=\/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=out.pdf in.pdf<\/code><\/pre>\n\n\n\n<p>El programa gs tiene varias opciones en la conversi\u00f3n a PDF (opci\u00f3n <code>-dPDFSETTINGS<\/code> que escribo aqu\u00ed para futuras referencias:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>\/screen: calidad de im\u00e1genes para pantallas (72 dpi)<\/li><li>\/ebook: baja calidad (150 dpi)<\/li><li>\/printer: calidad alta (300 dpi)<\/li><li>\/prepress: calidad alta preservando el color (300 dpi)<\/li><li>\/default: casi id\u00e9ntica a \/screen<\/li><\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">A\u00f1adir textos<\/h2>\n\n\n\n<p>Al estar el documento formado s\u00f3lo por im\u00e1genes no es posible encontrar o copiar textos sin realizar lo que se llama un reconocimiento \u00f3ptico de caracteres, operaci\u00f3n compleja dependiendo de muchos factores, pero que puede realizarse con herramientas disponibles en Linux. <\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p>Es conveniente tener en cuenta que cuanto m\u00e1s reduzcamos la calidad de las im\u00e1genes peor va a ser el reconocimiento. <\/p><\/blockquote>\n\n\n\n<p>Concretamente el programa <a href=\"https:\/\/github.com\/tesseract-ocr\">tesseract<\/a> y un frontal llamado <a href=\"https:\/\/github.com\/jbarlow83\/OCRmyPDF\">ocrmypdf<\/a> que facilita la inserci\u00f3n del texto reconocido en el propio documento. No es el mejor de los arreglos pero cumple muy bien su funci\u00f3n.<\/p>\n\n\n\n<p>Usando el programa que menciono una conversi\u00f3n puede realizarse como: <\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">$ ocrmypdf --output-type pdfa --language spa --force-ocr entrada.pdf salida2.pdf <\/pre>\n\n\n\n<p>Y por lo que se puede ver en la imagen siguiente es posible encontrar t\u00e9rminos en el documento de manera casi id\u00e9ntica a si su origen fuese un procesador de palabras. Hay que tener en cuenta que las im\u00e1genes pueden estar, por ejemplo, ligeramente ladeadas y es por eso por lo que no siempre el texto corresponde a la imagen. <\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"649\" src=\"https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-1024x649.png\" alt=\"\" class=\"wp-image-2932\" srcset=\"https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-1024x649.png 1024w, https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-300x190.png 300w, https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-768x487.png 768w, https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf.png 1683w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Referencias<\/h2>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/superuser.com\/questions\/427851\/batch-resize-and-compress-pdf-files#901510\">https:\/\/superuser.com\/questions\/427851\/batch-resize-and-compress-pdf-files#901510<\/a><\/li><li><a href=\"https:\/\/linuxaria.com\/article\/tesseract-ocr-convert-images\">https:\/\/linuxaria.com\/article\/tesseract-ocr-convert-images<\/a><\/li><li><a href=\"https:\/\/www.parascript.com\/blog\/image-quality-for-document-capture-is-more-dpi-always-better\/\">https:\/\/www.parascript.com\/blog\/image-quality-for-document-capture-is-more-dpi-always-better\/<\/a><\/li><li><a href=\"https:\/\/williamjturkel.net\/2013\/07\/06\/doing-ocr-using-command-line-tools-in-linux\/\">https:\/\/williamjturkel.net\/2013\/07\/06\/doing-ocr-using-command-line-tools-in-linux\/<\/a><\/li><\/ul>\n","protected":false},"excerpt":{"rendered":"<p>&#8230; para que pueda ser mejor transportado y m\u00e1s \u00fatil.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_import_markdown_pro_load_document_selector":0,"_import_markdown_pro_submit_text_textarea":"","webmentions_disabled_pings":false,"webmentions_disabled":false,"footnotes":""},"categories":[2],"tags":[231,871,874,222,870,872,873],"class_list":["post-2930","post","type-post","status-publish","format-standard","hentry","category-software","tag-escaner","tag-ghostscript","tag-ocr","tag-pdf","tag-sane","tag-simple-scan","tag-tesseract"],"_links":{"self":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts\/2930","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/comments?post=2930"}],"version-history":[{"count":6,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts\/2930\/revisions"}],"predecessor-version":[{"id":2939,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts\/2930\/revisions\/2939"}],"wp:attachment":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/media?parent=2930"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/categories?post=2930"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/tags?post=2930"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}