UCS: si me aclarase sobre lo que quiero guardar …

… sufriría mucho menos. Y es que lo quiero todo, todito, todo. Y eso lo mismo no puede ser.

Al menos al principio, ¿ no ?

Así que lo que voy a describir ahora es qué información deben custodiar una UCS y en qué formatos. Si lo clasificamos en bloques tendríamos:

Bases de datos como volcados procedentes de:
1. Bases de datos relacionales (MySQL, PostgreSQL,SQlite,Multibase,…)
2. Árboles de configuración de sistemas
3. Colecciones de archivos en formatos concretos como XML, YAML, …
4. Registros de programas varios y extraños (como las nóminas enviadas a bancos).
Programas:
1. Repositorios Git
2. Repositorio de paquetes Debian.
3. Directorios de programas externos como los que existen bajo /opt en ciertos servidores.
Archivos:
1. Documentos de texto
2. Hojas de cálculo
3. Documentos PDF
4. Imágenes
Comunicaciones:
1. Agendas de direcciones
2. Correos electrónicos
3. Calendarios (aunque esto es de dudosa utilidad)

Y si hablamos de los formatos podríamos repetir los pasos anteriores y citarlos o empezar por el otro extremo. Creo que eso es mejor:

En crudo, sin especiar siquiera, tendríamos:
1. Volcados de bases de datos relacionales porque es el método de recuperación de datos más extendido. Un programa vuelca información y otro la carga de nuevo. No es selectivo pero es que a nivel relacional no tengo ahora mismo otras opciones dado que no estoy empleando ningún tipo de mecanismo de instantáneas en los servidores.
2. Colecciones de archivos como los citados en los puntos 1.3 y 1.4 de la lista anterior.
3. Documentos, hojas de cálculo, PDF e imágenes. No requiren de ningún tipo de transformación porque pueden emplearse directamente por todo tipo de herramientas.
4. Repositorios de software: Git y Debian. Tampoco necesitan ninguna transformación. Ambos están diseñados para colgar de un directorio concreto y basta con moverlos a otro para que estén disponibles.
Normalizados. Entendiendo el término como convertidos a un formato estándar para poder utilizarlos después -o tras descarga directa- con otras herramientas:
1. Las agendas de direcciones tendrían que estar en formatos transportables como vCard o LDIF. Eso facilitaría mucho su recuperación en los servidores.
2. Los calendarios tendrían que sufrir la misma transformación, aunque en su caso iCalendar tal vez.
3. Las configuraciones de equipos informáticos, entendiendo que éstas deben corresponder a árboles de archivos y directorios como los presentes bajo /etc. En este caso convendría que fuesen empaquetadas y comprimidas como Tar y Gzip; el proceso de restaurarlos es tan delicado que es mejor que permanezcan lo más silenciadas posible.
Cocinados y listos para su consumo por el programa de acceso a información más universal que conozco: un navegador web. Estoy seguro de que esta parte es la que más trabajo me va a dar, pero también será la que más fama, gloria y mujeres me conseguirá. Bueno, quizás no tanto, pero seguro que alguna palmadita en la espalda sí que caerá, ¿ verdad ?
1. Archivos de datos maestros:
  1. Clientes, proveedores y otros homínidos con los que se relaciona la empresa.
  2. Artículos
  3. Facturación: incluyendo documento expedidos y recibidos
  4. Contabilidad
  5. Movimientos de dinero (lo mismo que la contabilidad pero con una estructura sana).
2. Informes que terminan impresos en mucho papel:
  1. Declaraciones oficiales como las de impuestos
  2. Estadísticas de ventas, compras, mercancías

Por si alguien se pregunta cómo es que algunos datos no se obtienen ya normalizados, os contaré que es debido a la antigüedad de la instalación y de sus programas. El contenido más importante, el que forma la lógica del negocio, como el archivo maestro de clientes (del que se deben obtener dichas agendas) precisan de un intrincado y oscuro proceso de lectura y transformación -comenzando por el juego de caracteres- antes de poder pensar siquiera en convertirlo a otra cosa.

Ciertamente en este punto aún desconozco cómo voy a obtener los datos. No te cuento ya de saber qué hacer con ellos.

Pero todavía existen algunos elementos más que tienen algo confundido. Por ejemplo las páginas web de la empresa. Las gestiona una herramienta como Drupal en un caso y Piwigo o Mediawiki en otros. ¿ Merece la pena disponer de una copia estática de ellas sabiendo que por otro lado están ya presentes en el resto de las copias (bases de datos y programas) ?

Decisiones, decisiones, …