… obteniendo los primeros datos.
He creado un pequeño repositorio para ir guardando las diferentes herramientas que voy a utilizar en la recuperación del banco de imágenes de la enana. Lo he llamado rdioy que es una acrónimo para «Recuperación De Imágenes Ou Yeah» porque es algo completamente privado y rdi me parecía un poco soso.
He creado otra copia más de las imágenes en un directorio de uno de los discos externos de 3Tb anclado al servidor principal de casa. En él he puesto todo bajo la ruta originales.d y he añadido tmp y finales.d para trabajar con el contenido y donde almacenar el resultado final.
Como el total ocupa 111gb y tengo que mantener al menos un par de juegos de archivos no es posible meterlo en el ordenador de desarrollo. He creado un par de scripts para que seleccionen al azar un número concreto de archivos (y directorios), los empaqueten en un tar y los pasen a mi máquina. Allí los he descomprimido y es lo que empleo para trabajar con los diferentes casos.
El programa que sumariza los contenidos lo hace con el tipo MIME utilizando el paquete File::MimeInfo::Magic que me parece más completo que los otros, que ya te dicen que trabajan sólo con la extensión de archivos. Algo estúpido que hemos heredado de Windows y demás y que tiene muy poco valor.
El sumario del contenido es el siguiente:
osr@matraz:~/git/rdioy$ find originales.d/ | perl bin/sumario En total 28578 Im�genes 25896 V�deos 883 Directorios 1095 Otros tipos 1 application/vnd.ms-powerpoint 3 text/html 3 text/x-python 4 application/octet-stream 1 application/smil+xml 12 application/vnd.sqlite3 436 application/xml 107 application/gzip 1 application/msword 2 application/pdf 4 application/zip 111 text/plain 3 application/x-sqlite2 1 application/x-trash 2 application/x-ole-storage 5 application/x-perl 2 application/x-theme 1 application/x-compressed-tar 1 audio/x-wav 1 application/vnd.oasis.opendocument.text 3 application/x-python-bytecode
Lo que ya me da una idea de todo lo que hay que limpiar y separar. Los archivos xml me parece que son metadatos de las imágenes que no pueden llevarlo. Tengo que ampliar los resultados para que me indique los tipos de imágenes y de vídeos.
Seguiré con el plan que ya describí en la entrada anterior e iré anunciando los resultados aquí.