{"id":2930,"date":"2019-05-14T10:12:50","date_gmt":"2019-05-14T09:12:50","guid":{"rendered":"https:\/\/esferas.org\/msqlu\/?p=2930"},"modified":"2019-05-14T16:27:11","modified_gmt":"2019-05-14T15:27:11","slug":"procesando-un-documento-escaneado","status":"publish","type":"post","link":"https:\/\/esferas.org\/msqlu\/2019\/05\/14\/procesando-un-documento-escaneado\/","title":{"rendered":"Procesando un documento escaneado &#8230;"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">&#8230; para que pueda ser mejor transportado y m\u00e1s \u00fatil. <\/p>\n<span hidden class=\"__iawmlf-post-loop-links\" data-iawmlf-links=\"[{&quot;id&quot;:562,&quot;href&quot;:&quot;https:\\\/\\\/epson.com\\\/Support\\\/Scanners\\\/Perfection-Series\\\/Epson-Perfection-2400-Photo\\\/s\\\/SPT_B11B152011&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20251213103729\\\/https:\\\/\\\/epson.com\\\/Support\\\/Scanners\\\/Perfection-Series\\\/Epson-Perfection-2400-Photo\\\/s\\\/SPT_B11B152011&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-15 13:41:47&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-04-24 00:44:44&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-05-11 05:04:24&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-16 20:38:14&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:200}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:200},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:563,&quot;href&quot;:&quot;http:\\\/\\\/sane-project.org&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260409180340\\\/http:\\\/\\\/www.sane-project.org\\\/&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-15 13:41:51&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-04-24 00:44:44&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-05-11 05:04:15&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-16 21:42:08&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:200}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:200},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:564,&quot;href&quot;:&quot;https:\\\/\\\/launchpad.net\\\/simple-scan&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260415134416\\\/https:\\\/\\\/launchpad.net\\\/simple-scan&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-17 17:24:03&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-04-24 00:44:47&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-05-11 05:04:19&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-16 21:42:09&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-30 23:01:41&quot;,&quot;http_code&quot;:503}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:41&quot;,&quot;http_code&quot;:503},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:565,&quot;href&quot;:&quot;http:\\\/\\\/www.ghostscript.com&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260415134433\\\/https:\\\/\\\/www.ghostscript.com\\\/&quot;,&quot;redirect_href&quot;:&quot;https:\\\/\\\/www.ghostscript.com\\\/&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-17 17:24:11&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-04-24 00:44:45&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-05-11 05:04:39&quot;,&quot;http_code&quot;:503},{&quot;date&quot;:&quot;2026-06-16 21:42:13&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-06-30 23:01:41&quot;,&quot;http_code&quot;:503}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:41&quot;,&quot;http_code&quot;:503},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:566,&quot;href&quot;:&quot;https:\\\/\\\/github.com\\\/tesseract-ocr&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260411003400\\\/https:\\\/\\\/github.com\\\/tesseract-ocr&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-15 13:42:12&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-04-24 00:44:45&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:206}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:206},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:567,&quot;href&quot;:&quot;https:\\\/\\\/github.com\\\/jbarlow83\\\/OCRmyPDF&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20211125053904\\\/https:\\\/\\\/github.com\\\/jbarlow83\\\/OCRmyPDF&quot;,&quot;redirect_href&quot;:&quot;https:\\\/\\\/github.com\\\/ocrmypdf\\\/OCRmyPDF&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-17 17:24:17&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-04-24 00:44:46&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-05-11 05:04:27&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-06-16 20:38:18&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:200}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:200},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:568,&quot;href&quot;:&quot;https:\\\/\\\/superuser.com\\\/questions\\\/427851\\\/batch-resize-and-compress-pdf-files#901510&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260415134442\\\/https:\\\/\\\/superuser.com\\\/questions\\\/427851\\\/batch-resize-and-compress-pdf-files&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-17 17:24:12&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-16 21:42:14&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-30 23:01:43&quot;,&quot;http_code&quot;:200}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:43&quot;,&quot;http_code&quot;:200},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:569,&quot;href&quot;:&quot;https:\\\/\\\/linuxaria.com\\\/article\\\/tesseract-ocr-convert-images&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260415134556\\\/https:\\\/\\\/linuxaria.com\\\/article\\\/tesseract-ocr-convert-images&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-17 17:24:23&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-16 21:42:17&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-30 23:01:41&quot;,&quot;http_code&quot;:200}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:41&quot;,&quot;http_code&quot;:200},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:570,&quot;href&quot;:&quot;https:\\\/\\\/www.parascript.com\\\/blog\\\/image-quality-for-document-capture-is-more-dpi-always-better&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20260415134455\\\/https:\\\/\\\/www.parascript.com\\\/blog\\\/image-quality-for-document-capture-is-more-dpi-always-better\\\/&quot;,&quot;redirect_href&quot;:&quot;https:\\\/\\\/www.parascript.com\\\/blog\\\/image-quality-for-document-capture-is-more-dpi-always-better\\\/&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-17 17:24:15&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-05-11 05:04:31&quot;,&quot;http_code&quot;:206},{&quot;date&quot;:&quot;2026-06-30 23:01:38&quot;,&quot;http_code&quot;:206}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:38&quot;,&quot;http_code&quot;:206},&quot;process&quot;:&quot;done&quot;},{&quot;id&quot;:571,&quot;href&quot;:&quot;https:\\\/\\\/williamjturkel.net\\\/2013\\\/07\\\/06\\\/doing-ocr-using-command-line-tools-in-linux&quot;,&quot;archived_href&quot;:&quot;https:\\\/\\\/web-wp.archive.org\\\/web\\\/20251228135851\\\/https:\\\/\\\/williamjturkel.net\\\/2013\\\/07\\\/06\\\/doing-ocr-using-command-line-tools-in-linux\\\/&quot;,&quot;redirect_href&quot;:&quot;&quot;,&quot;checks&quot;:[{&quot;date&quot;:&quot;2026-04-15 13:42:52&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-05-11 05:04:38&quot;,&quot;http_code&quot;:200},{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:404}],&quot;broken&quot;:false,&quot;last_checked&quot;:{&quot;date&quot;:&quot;2026-06-30 23:01:37&quot;,&quot;http_code&quot;:404},&quot;process&quot;:&quot;done&quot;}]\"><\/span>\n\n\n<!--more-->\n\n\n\n<p class=\"wp-block-paragraph\">Desde hace un tiempo estoy guardando cualquier documento en papel en digital por aquello de tenerlo m\u00e1s a mano a la hora de enviar o compartir. De hecho es ahora cuando m\u00e1s uso le estoy dando al esc\u00e1ner casero que tengo desde hace a\u00f1os, un <a href=\"https:\/\/epson.com\/Support\/Scanners\/Perfection-Series\/Epson-Perfection-2400-Photo\/s\/SPT_B11B152011\">Epson Perfection 2400 PHOTO<\/a> (GT-9300UF), que sigue funcionando de maravilla. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Basta con limpiarlo regularmente y emplear un programa m\u00e1s sencillo que <a href=\"http:\/\/sane-project.org\/\">xsane<\/a> como <a href=\"https:\/\/launchpad.net\/simple-scan\">Simple Scan<\/a>. Este \u00faltimo te crea siempre un PDF con las p\u00e1ginas insertas como im\u00e1genes con un simple <em>click<\/em>; una a una, es verdad, pero cuando le coges el truco sorprende lo c\u00f3modo y r\u00e1pido que puede ser. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pues bien, el caso es que es tan simple de usar que hay poco que cambiar en las opciones de escaneado y los documentos suelen ser bastante monstruosos. Por una parte cada hoja puede llegar a ocupar casi tres mega bytes de tama\u00f1o y por otra, al ser s\u00f3lo im\u00e1genes, se pierde la parte textual que tan \u00fatil es para realizar b\u00fasquedas o extraer textos. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Reducir el tama\u00f1o<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Para reducir su tama\u00f1o podemos recurrir a la herramienta <em>gs<\/em> del paquete <a href=\"http:\/\/www.ghostscript.com\/\">Ghostscript<\/a>, antigua y fiable, que con algo como lo siguiente te deja el documento liviano y legible. <\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">$<code>gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=\/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=out.pdf in.pdf<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">El programa gs tiene varias opciones en la conversi\u00f3n a PDF (opci\u00f3n <code>-dPDFSETTINGS<\/code> que escribo aqu\u00ed para futuras referencias:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>\/screen: calidad de im\u00e1genes para pantallas (72 dpi)<\/li><li>\/ebook: baja calidad (150 dpi)<\/li><li>\/printer: calidad alta (300 dpi)<\/li><li>\/prepress: calidad alta preservando el color (300 dpi)<\/li><li>\/default: casi id\u00e9ntica a \/screen<\/li><\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">A\u00f1adir textos<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Al estar el documento formado s\u00f3lo por im\u00e1genes no es posible encontrar o copiar textos sin realizar lo que se llama un reconocimiento \u00f3ptico de caracteres, operaci\u00f3n compleja dependiendo de muchos factores, pero que puede realizarse con herramientas disponibles en Linux. <\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p>Es conveniente tener en cuenta que cuanto m\u00e1s reduzcamos la calidad de las im\u00e1genes peor va a ser el reconocimiento. <\/p><\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">Concretamente el programa <a href=\"https:\/\/github.com\/tesseract-ocr\">tesseract<\/a> y un frontal llamado <a href=\"https:\/\/github.com\/jbarlow83\/OCRmyPDF\">ocrmypdf<\/a> que facilita la inserci\u00f3n del texto reconocido en el propio documento. No es el mejor de los arreglos pero cumple muy bien su funci\u00f3n.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Usando el programa que menciono una conversi\u00f3n puede realizarse como: <\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">$ ocrmypdf --output-type pdfa --language spa --force-ocr entrada.pdf salida2.pdf <\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Y por lo que se puede ver en la imagen siguiente es posible encontrar t\u00e9rminos en el documento de manera casi id\u00e9ntica a si su origen fuese un procesador de palabras. Hay que tener en cuenta que las im\u00e1genes pueden estar, por ejemplo, ligeramente ladeadas y es por eso por lo que no siempre el texto corresponde a la imagen. <\/p>\n\n\n\n<figure class=\"wp-block-image\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"649\" src=\"https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-1024x649.png\" alt=\"\" class=\"wp-image-2932\" srcset=\"https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-1024x649.png 1024w, https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-300x190.png 300w, https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf-768x487.png 768w, https:\/\/esferas.org\/msqlu\/wp-content\/uploads\/sites\/12\/2019\/05\/ejemplo-de-busqueda-en-pdf.png 1683w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Referencias<\/h2>\n\n\n\n<ul class=\"wp-block-list\"><li><a href=\"https:\/\/superuser.com\/questions\/427851\/batch-resize-and-compress-pdf-files#901510\">https:\/\/superuser.com\/questions\/427851\/batch-resize-and-compress-pdf-files#901510<\/a><\/li><li><a href=\"https:\/\/linuxaria.com\/article\/tesseract-ocr-convert-images\">https:\/\/linuxaria.com\/article\/tesseract-ocr-convert-images<\/a><\/li><li><a href=\"https:\/\/www.parascript.com\/blog\/image-quality-for-document-capture-is-more-dpi-always-better\/\">https:\/\/www.parascript.com\/blog\/image-quality-for-document-capture-is-more-dpi-always-better\/<\/a><\/li><li><a href=\"https:\/\/williamjturkel.net\/2013\/07\/06\/doing-ocr-using-command-line-tools-in-linux\/\">https:\/\/williamjturkel.net\/2013\/07\/06\/doing-ocr-using-command-line-tools-in-linux\/<\/a><\/li><\/ul>\n","protected":false},"excerpt":{"rendered":"<p>&#8230; para que pueda ser mejor transportado y m\u00e1s \u00fatil.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_import_markdown_pro_load_document_selector":0,"_import_markdown_pro_submit_text_textarea":"","webmentions_disabled_pings":false,"webmentions_disabled":false,"footnotes":""},"categories":[2],"tags":[231,871,874,222,870,872,873],"class_list":["post-2930","post","type-post","status-publish","format-standard","hentry","category-software","tag-escaner","tag-ghostscript","tag-ocr","tag-pdf","tag-sane","tag-simple-scan","tag-tesseract"],"_links":{"self":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts\/2930","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/comments?post=2930"}],"version-history":[{"count":6,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts\/2930\/revisions"}],"predecessor-version":[{"id":2939,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/posts\/2930\/revisions\/2939"}],"wp:attachment":[{"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/media?parent=2930"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/categories?post=2930"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/esferas.org\/msqlu\/wp-json\/wp\/v2\/tags?post=2930"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}