100DaysToOffload: día 7 – organizando entornos y …

… obteniendo los primeros datos.

He creado un pequeño repositorio para ir guardando las diferentes herramientas que voy a utilizar en la recuperación del banco de imágenes de la enana. Lo he llamado rdioy que es una acrónimo para «Recuperación De Imágenes Ou Yeah» porque es algo completamente privado y rdi me parecía un poco soso.

He creado otra copia más de las imágenes en un directorio de uno de los discos externos de 3Tb anclado al servidor principal de casa. En él he puesto todo bajo la ruta originales.d y he añadido tmp y finales.d para trabajar con el contenido y donde almacenar el resultado final.

Como el total ocupa 111gb y tengo que mantener al menos un par de juegos de archivos no es posible meterlo en el ordenador de desarrollo. He creado un par de scripts para que seleccionen al azar un número concreto de archivos (y directorios), los empaqueten en un tar y los pasen a mi máquina. Allí los he descomprimido y es lo que empleo para trabajar con los diferentes casos.

El programa que sumariza los contenidos lo hace con el tipo MIME utilizando el paquete File::MimeInfo::Magic que me parece más completo que los otros, que ya te dicen que trabajan sólo con la extensión de archivos. Algo estúpido que hemos heredado de Windows y demás y que tiene muy poco valor.

El sumario del contenido es el siguiente:

osr@matraz:~/git/rdioy$ find originales.d/ | perl bin/sumario
   En total  28578
   Im�genes  25896
     V�deos    883
Directorios   1095
Otros tipos 
            1 application/vnd.ms-powerpoint
            3 text/html
            3 text/x-python
            4 application/octet-stream
            1 application/smil+xml
           12 application/vnd.sqlite3
          436 application/xml
          107 application/gzip
            1 application/msword
            2 application/pdf
            4 application/zip
          111 text/plain
            3 application/x-sqlite2
            1 application/x-trash
            2 application/x-ole-storage
            5 application/x-perl
            2 application/x-theme
            1 application/x-compressed-tar
            1 audio/x-wav
            1 application/vnd.oasis.opendocument.text
            3 application/x-python-bytecode

Lo que ya me da una idea de todo lo que hay que limpiar y separar. Los archivos xml me parece que son metadatos de las imágenes que no pueden llevarlo. Tengo que ampliar los resultados para que me indique los tipos de imágenes y de vídeos.

Seguiré con el plan que ya describí en la entrada anterior e iré anunciando los resultados aquí.