Disco RAID con offline uncorrectable sector (I)

29 diciembre 2021

Que ya lleva varios días (tal vez semanas) avisando de la situación y no parece que mejore si se le ignora.

Así que sí, me he puesto con ello porque es parte de un array de discos de tipo 1 que se emplea directamente como soporte de las copias de seguridad.

Los avisos los estoy recibiendo por correo electrónico con el siguiente cuerpo de mensaje:

This message was generated by the smartd daemon running on:

   host name:  backups
   DNS domain: empresa.net

The following warning/error was logged by the smartd daemon:

Device: /dev/sdc [SAT], 1 Currently unreadable (pending) sectors

Device info:
WDC WD3003FZEX-00Z4SA0, S/N:WD-WMC130D380P0, WWN:5-0014ee-0ae920ddf, FW:01.01A01, 3.00 TB

For details see host's SYSLOG.

Por lo que lo primero que he hecho ha sido sacarlo del array de discos, indicando primero que tiene fallos y pasando después a decirle que no cuente con él.

# mdadm --fail /dev/md0 /dev/sdc
# mdadm --fail /dev/md0 --remove /dev/sdc1

Ahora tengo algunas dudas sobre cómo proceder. Se supone que estos discos llevan desde hace años ellos solitos la gestión de los bloques defectuosos. Como he podido ver en la red a respuestas a esta pregunta (qué hacer en este caso), si por alguna razón el firmware del disco no puede registrar más o le falta una limpieza de estos sectores aparece el error de manera regular.

Así que ahora que el disco no tiene uso en el sistema he puesto en marcha un test propio para ver si mejora en algo o no.

root@backups:~#  smartctl -t offline /dev/sdc
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-16-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART off-line routine immediately in off-line mode".
Drive command "Execute SMART off-line routine immediately in off-line mode" successful.
Testing has begun.
Please wait 30720 seconds for test to complete.
Test will complete after Wed Dec 29 19:41:45 2021

Use smartctl -X to abort test.


Tendré que esperar a esta noche (mejor mañana) para ver si el test ha funcionado. Una lástima porque tengo pensado actualizarlo a Debian 11 y me tocará volver mañana me guste o no.

En otro orden de cosas y por si algo de esto falla estoy más o menos preparado para sustituirlo por otro disco que tengo en espera de 4Tb. He pensado en crear una partición de 3Tb, añadirlo al RAID y cuando más adelante tenga que comprar otro disco lo haré de 4Tb y luego probaré a ampliar las particiones para no desperdiciar ese terabyte que me queda suelto.

También pensé en crear una partición con ese espacio y usarla para otra cosa pero luego he visto que no sería bueno para el rendimiento si parte del disco está usado por otro proceso que no sea el RAID.

Continuaré la entrada …

    Mentions

  • 💬 Tareas: miércoles, 29 de diciembre de 2021
  • 💬 Tareas: miércoles, 29 de diciembre de 2021
  • 💬 Tareas: miércoles, 29 de diciembre de 2021
  • 💬 Tareas: miércoles, 29 de diciembre de 2021
  • 💬 Tareas: miércoles 29 de diciembre de 2021
  • 💬 Tareas: miércoles 29 de diciembre de 2021
  • 💬 Tareas: miércoles 29 de diciembre de 2021
  • 💬 Tareas: miércoles 29 de diciembre de 2021

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *