Forum: Zruspa's BBS

resilver panic

From Kai Richter@2:240/77 to Alle on Fri Jul 28 12:53:42 2023

Hallo,

eine leicht versp�tete Plattenrotation im zpool begann ganz normal

NAME STATE READ WRITE CKSUM
raidz1-0 ONLINE 0 0 0
replacing-0 ONLINE 0 0 0
gpt/D5-16oct ONLINE 0 0 0
gpt/D5e27sep ONLINE 0 0 0 (resilvering)

um dann sp�ter Schweissperlen zu treiben:

state: ONLINE
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Fri Jul 28 09:48:10 2023
905G resilvered, 29.73% done, 05:22:15 to go
config:

NAME STATE READ WRITE CKSUM
raidz1-0 ONLINE 0 0 0
replacing-0 ONLINE 0 0 8
gpt/D5-16oct ONLINE 9 0 0 (resilvering)
gpt/D5e27sep ONLINE 0 0 0 (resilvering)

Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober, welche bisher v�llig unauff�llig war. Was mich jetzt irritiert, warum wird die alte Platte auch nach 30 Minuten immer noch im resilvering angezeigt? Als ich k�rzlich den offline Status einer Platte hatte, wurden 60GB im resilver relativ z�gig abgeschlossen, bei 9 Read Errors sollte dann die Sache doch auch sehr schnell erledigt sein?

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Windows 10: Pay for new hardware (2:240/77)

From Gerhard Strangar@2:240/2188.575 to Kai Richter on Sun Jul 30 14:13:46 2023

Am 28 Jul 23 12:53:42 schrob Kai Richter an Alle zum Thema
<resilver panic>

Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober, welche
bisher voellig unauffaellig war. Was mich jetzt irritiert, warum wird die alte Platte auch nach 30 Minuten immer noch im resilvering angezeigt?

Ich wuerde mal sagen, dass damit nur angezeigt wird, dass da Fehler korrigiert werden msuesten, nachdem das aber kaeme, sobald sie ersetzt ist, passiert das wohl nie.

Tschoe mit Oe
Gerhard
---
* Origin: (2:240/2188.575)

From Kai Richter@2:240/77 to Gerhard Strangar on Sun Jul 30 19:58:38 2023

Hallo Gerhard!

Am 30 Jul 23, Gerhard Strangar schrieb an Kai Richter:

warum wird die alte Platte auch nach 30 Minuten immer noch im
resilvering angezeigt?

Ich wuerde mal sagen, dass damit nur angezeigt wird, dass da Fehler korrigiert werden msuesten, nachdem das aber kaeme, sobald sie ersetzt ist, passiert das wohl nie.

Hm, als neulich eine Platte offline ging und ich sie mit dem zpool online Befehl wieder aktiviert habe, wurde das resilver auch automatisch gestartet, allerdings war das dann auch der einzige resilver Prozess.

Die Frage wieviele resilver gleichzeitig in einem pool laufen k�nnen hab ich mir bisher nicht gestellt. Auch bei dem replace bin ich auf Nummer Sicher gegangen und habe immer nur eine Platte gleichzeitig ersetzt. Falls die wirklich nicht gleichzeitig laufen k�nnen, dann macht Deine Erkl�rung Sinn.

Ich habe weiter gesucht und nun diese Best�tigung gefunden:

# zpool get feature@resilver_defer pool
NAME PROPERTY VALUE SOURCE
pool feature@resilver_defer enabled local

"This feature allows ZFS to postpone new resilvers if an existing one is already in progress. Without this feature, any new resilvers will cause the currently running one to be immediately restarted from the beginning."

Inzwischen ist das replace der alten Platte fertig, daher wird sie logischerweise auch nicht mehr angezeigt. Da ich z�gig weiter kommen will, habe die alte Platte gleich ausgebaut und ungesehen hingelegt. Da f�llt mir ein, m�ssen die noch mit labelclear oder gpart von den zpool Resten befreit werden, oder ist das mit dem replace bereits erledigt worden?

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Boerse, den letzten beissen die Hunde (2:240/77)

From Gerrit Kuehn@2:240/12 to Kai Richter on Sun Jul 30 21:16:03 2023

Hello Kai!

28 Jul 23 12:53, Kai Richter wrote to Alle:

Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober, welche
bisher v�llig unauff�llig war.

Wann war der letzte Scrub?

Was mich jetzt irritiert, warum wird
die alte Platte auch nach 30 Minuten immer noch im resilvering
angezeigt? Als ich k�rzlich den offline Status einer Platte hatte,
wurden 60GB im resilver relativ z�gig abgeschlossen, bei 9 Read
Errors sollte dann die Sache doch auch sehr schnell erledigt sein?

Bewegen sich die Zahlen noch? Irgendwas Erhellendes im dmesg? Was sagt smartctl?

Regards,
Gerrit

... 9:16PM up 495 days, 2:22, 7 users, load averages: 0.52, 0.69, 0.75

--- msged/fbsd 6.3 2021-12-02
* Origin: Ideas of lust and dying (2:240/12)

From Kai Richter@2:240/77 to Gerrit Kuehn on Mon Jul 31 21:05:58 2023

Tach Gerrit!

Am 30 Jul 23, Gerrit Kuehn schrieb an Kai Richter:

Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober,
welche bisher v�llig unauff�llig war.

Wann war der letzte Scrub?

Du h�rst wie sich ein leises Pfeifen entfernt...
Noch nie...

Was mich jetzt irritiert, warum wird
die alte Platte auch nach 30 Minuten immer noch im resilvering
angezeigt? Als ich k�rzlich den offline Status einer Platte
hatte, wurden 60GB im resilver relativ z�gig abgeschlossen, bei 9
Read Errors sollte dann die Sache doch auch sehr schnell erledigt
sein?

Bewegen sich die Zahlen noch?

Nein, die Disk ist inzwischen ersetzt und aus dem System raus.

Irgendwas Erhellendes im dmesg?

Eines meiner scripte hat dieses dmesg.backup.txt eingefangen:

(ada4:ahcich4:0:0:0): READ_FPDMA_QUEUED. ACB: 60 c0 80 ec 06 40 01 00 00 07 00 00
(ada4:ahcich4:0:0:0): CAM status: ATA Status Error
(ada4:ahcich4:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC ) (ada4:ahcich4:0:0:0): RES: 41 40 a0 ed 06 40 01 00 00 00 00 (ada4:ahcich4:0:0:0): Retrying command, 3 more tries remain

Wurde nach 5 Retries abgebrochen. Ich kann aber keinen genauen Zusammenhang herstellen, welche Platte zu der Zeit an ada4 hing. Das BIOS ver�ndert die ada Reihenfolge wenn ein SATAn Kabel nicht angeschlossen ist, andere Platten r�cken dann vor. Ich meine einmal hat sich sogar die Reihenfolge bei den vier unangetasteten Platten (ada0-3) ver�ndert. Vermutlich wenn eine Platte l�nger braucht um sich zu melden. Das ist manuell so ein Krampf, ich bin immer froh wenn das gpt label auf der richtigen Platte gelandet ist.

Die Fehlermeldung oben weist nach Inet Suche auf ein Kabelproblem hin. Ich hatte die Stromkabel f�r die Austauschplatte gekreuzt �ber einem SATA Kabel liegen, kann sein, dass da beim Powerup St�rungen entstanden sind. Die SATA Kabel des Supermicro Boards mit dem viereckigen Stecker sind so d�nn, da frag ich mich ob die Abschirmung was taugt.

Ach ja, ich hab die Platten kalt getauscht, also immer poweroff / poweron.

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Cheap, Fast, Reliable - pick any two. (2:240/77)

From Gerhard Strangar@2:240/2188.575 to Kai Richter on Mon Jul 31 17:18:18 2023

Am 30 Jul 23 19:58:38 schrob Kai Richter an Gerhard Strangar zum Thema <resilver panic>

will, habe die alte Platte gleich ausgebaut und ungesehen hingelegt. Da faellt mir ein, muessen die noch mit labelclear oder gpart von den zpool Resten befreit werden, oder ist das mit dem replace bereits erledigt worden?

Warum sollte ein zpool replace irgendwelche Partitionstabellen loeschen? Die neue Platte ist ueberschrieben, auf der alten ist noch alles drauf.

Tschoe mit Oe
Gerhard
---
* Origin: (2:240/2188.575)

From Gerrit Kuehn@2:240/12 to Kai Richter on Tue Aug 1 21:21:35 2023

Hello Kai!

31 Jul 23 21:05, Kai Richter wrote to Gerrit Kuehn:

Wann war der letzte Scrub?

Du h�rst wie sich ein leises Pfeifen entfernt...
Noch nie...

Das ist -gerade mit so alter Hardware- eher mutig...

entstanden sind. Die SATA Kabel des Supermicro Boards mit dem
viereckigen Stecker sind so d�nn, da frag ich mich ob die Abschirmung
was taugt.

Breakout-Kabel von SFF-8087 auf SATA? Die Originalteile von SM sind eigentlich ganz brauchbar, da gibt es deutlich schlechtere. Defekte oder auch nur schlecht gesteckte Kabel kann man nat�rlich trotzdem immer haben.

Regards,
Gerrit

... 9:21PM up 497 days, 2:27, 7 users, load averages: 1.17, 0.81, 0.84

--- msged/fbsd 6.3 2021-12-02
* Origin: Shock to the System (2:240/12)

From Kai Richter@2:240/77 to Gerrit Kuehn on Wed Aug 2 14:05:44 2023

Hallo Gerrit!

Am 01 Aug 23, Gerrit Kuehn schrieb an Kai Richter:

[scrub]

Noch nie...

Das ist -gerade mit so alter Hardware- eher mutig...

Bei mir liegt es wohl eher an unerfahren und vertrauen in zfs. Die read errors scheint das System ja locker weggesteckt zu haben, f�r irgendwas muss raidz ja gut sein. Ich hatte allerdings auch seit einem halben Jahr ein Backup.

Breakout-Kabel von SFF-8087 auf SATA?

Ich bin zu faul die Nummer nachzusehen, aber etwas mit SFF oder SPP d�rfte passen und zu SATA geht es auch.

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Solar HQ (2:240/77)

From Gerhard Strangar@2:240/2188.575 to Gerrit Kuehn on Thu Aug 3 17:35:53 2023

Am 01 Aug 23 21:21:35 schrob Gerrit Kuehn an Kai Richter zum Thema
<resilver panic>

Wann war der letzte Scrub?

Du hoerst wie sich ein leises Pfeifen entfernt...
Noch nie...

Das ist -gerade mit so alter Hardware- eher mutig...

Das Problem ist doch eher, dass ZFS staendig Fehler findet, wo mit XFS keine zu sehen waren. ;-)

Tschoe mit Oe
Gerhard
---
* Origin: (2:240/2188.575)

From Gerrit Kuehn@2:240/12 to Gerhard Strangar on Fri Aug 4 21:57:14 2023

Hello Gerhard!

03 Aug 23 17:35, Gerhard Strangar wrote to Gerrit Kuehn:

Das ist -gerade mit so alter Hardware- eher mutig...

Das Problem ist doch eher, dass ZFS staendig Fehler findet, wo mit
XFS keine zu sehen waren. ;-)

Das ist vermutlich *der* Grund, warum man auch kein ECC-RAM einsetzen sollte... h�ttest Du mir das nur schon vor Jahren verraten!

Regards,
Gerrit

... 9:57PM up 500 days, 3:03, 7 users, load averages: 0.95, 0.87, 0.83

--- msged/fbsd 6.3 2021-12-02
* Origin: All carefully conceived (2:240/12)

From Kai Richter@2:240/77 to Alle on Wed Jan 3 23:53:00 2024

Tach Alle!

Am 28 Jul 23, Kai Richter schrieb an Alle:

eine leicht versp�tete Plattenrotation im zpool begann ganz normal
gpt/D5-16oct ONLINE 0 0 0
gpt/D5e27sep ONLINE 0 0 0 (resilvering)
um dann sp�ter Schweissperlen zu treiben:

Ich glaube irgendwo ist der Wurm drin.

state: SUSPENDED
status: One or more devices are faulted in response to IO failures.
action: Make sure the affected devices are connected, then run 'zpool clear'.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-HC
scan: resilvered 108K in 00:00:00 with 0 errors on Tue Jan 2 12:25:58 2024 config:

NAME STATE READ WRITE CKSUM
pool4 UNAVAIL 0 0 0 insufficient replicas
raidz1-0 UNAVAIL 0 0 0 insufficient replicas
gpt/D5e27sep ONLINE 0 0 0
gpt/D6e27dec ONLINE 0 0 0
gpt/D7e27dec REMOVED 0 0 0
gpt/D8e26dec REMOVED 0 0 0
errors: List of errors unavailable: pool I/O is currently suspended

errors: 4 data errors, use '-v' for a list

D5 ist die Platte vom Juli, e YYmon ist Garantieablauf. Neulich war mal kurz D7 weg, dann war wieder eine Zeit lang alles normal. �ber die Feiertage lief das System auf idle unbenutzt, am ersten Tag der Nutzung ist dann auf einmal D8 ausgestiegen. Am Rechner h�rte man dann ein leises Zirpen, als w�rde die Platte wiederholt einen Neustart versuchen. Um die Kiste zu beruhigen habe ich D8 abgeklemmt und den Pool erstmal im degraded weiter benutzt, was den Tag auch gut funktioniert hat. Am n�chsten Tag war dann auch D7 weg??

Ich habe dann erstmal alles runter gefahren und bin mit dem Gef�hl des single point of failure schlafen gegangen. Danach nochmal Abstand halten, auf der Arbeit den ganzen Tag gegr�belt. Es kann doch nicht sein, dass zwei fast neue Platten aus unterschiedlichen Margen zeitgleich ausfallen wollen.

Die erste direkte Gemeinsamkeit der beiden Platten: Mangels Kabel wurden sie �ber ein Y-Kabel mit Strom versorgt. Das hat auf der einen Seite einen bombenfest sitzenden Molex Stecker, der dann auf zwei SATA Power verteilt.

Das Board hat 12 SATAn Ports, ich kann da drei Pools je 4 HD anschliessen und habe aber nur zwei, also 8 Platten dran. Ich habe jetzt mal das Y-Kabel getrennt und die Stromkabel des dritten Pools r�ber gezogen. Zu meiner (ged�mpften) Begeisterung war der Pool nach ein paar kb resilver wieder voll online. Nach 24 Stunden ist der Pool noch da, bisher ohne grosse Last.

Wie kann es sein, dass ein Stromkabel nach Monaten anf�ngt zicken zu machen? (Falls es das jetzt wirklich war)

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Rede lieber fuer Dich allein, dann hast Du immer recht. (2:240/77)

From Gerhard Strangar@2:240/2188.575 to Kai Richter on Thu Jan 4 16:19:42 2024

Am 03 Jan 24 23:53:00 schrob Kai Richter an Alle zum Thema
<zpool panic>

Wie kann es sein, dass ein Stromkabel nach Monaten anfaengt zicken zu machen? (Falls es das jetzt wirklich war)

Ich bezweifle, dass es das Stromkabel ist. Ich wuerde eher vermuten, dass die Problemplatte bald wieder ausfaellt und dann gar nicht mehr ansprechbar ist.

Tschoe mit Oe
Gerhard
---
* Origin: (2:240/2188.575)

From Gerrit Kuehn@2:240/12 to Kai Richter on Thu Jan 4 18:18:24 2024

Hello Kai!

03 Jan 24 23:53, Kai Richter wrote to Alle:

Wie kann es sein, dass ein Stromkabel nach Monaten anf�ngt zicken zu machen?
(Falls es das jetzt wirklich war)

Ist das Netzteil in Ordnung?

Regards,
Gerrit

... 6:18PM up 653 days, 24 mins, 7 users, load averages: 0.96, 0.79, 0.77

--- msged/fbsd 6.3 2021-12-02
* Origin: Dry thoughts for the tenant (2:240/12)

From Kai Richter@2:240/77 to Gerrit Kuehn on Fri Jan 5 01:54:46 2024

Tag Gerrit!

Am 04 Jan 24, Gerrit Kuehn schrieb an Kai Richter:

Wie kann es sein, dass ein Stromkabel nach Monaten anf�ngt zicken
zu machen? (Falls es das jetzt wirklich war)

Ist das Netzteil in Ordnung?

Die IPMI Stromwerte sehen soweit gut aus. Ich hatte in der �bergangsphase 3 pools dran, also 12 HDD, 3,5" drehend. Eine Belastungstestumgebung f�r Netzteile habe ich nicht. NT hat 350W, sollte eigentlich reichen.

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Seven holy path to hell (2:240/77)

From Kai Richter@2:240/77 to Gerhard Strangar on Tue Jan 16 14:16:48 2024

Tach auch Gerhard!

Am 04 Jan 24, Gerhard Strangar schrieb an Kai Richter:

Wie kann es sein, dass ein Stromkabel nach Monaten anfaengt zicken
zu machen? (Falls es das jetzt wirklich war)

Ich bezweifle, dass es das Stromkabel ist. Ich wuerde eher vermuten,
dass die Problemplatte bald wieder ausfaellt und dann gar nicht mehr ansprechbar ist.

Ich habe immer wieder den pool status �berpr�ft. Seitdem ich die Stromanschl�sse getauscht habe, gab es keine weiteren Ausf�lle mehr.

Die Stromversorgung sehe ich daher als Ursache, jetzt bleibt noch offen ob es das Y-Kabel ist, oder ob sich der Kabelstrang eine kalte L�tstelle eingefangen hat.

Tschuess

Kai

--- GoldED+/LNX 1.1.4.7
* Origin: Hotshot, climb to FL3000... (2:240/77)

Who's Online

System Info

Sysop:	Angel Ripoll
Location:	Madrid, Spain
Users:	14
Nodes:	8 (0 / 8)
Uptime:	119:10:55
Calls:	817
Files:	14,866
Messages:	70,765

resilver panic

Who's Online

System Info