• resilver panic

    From Kai Richter@2:240/77 to Alle on Fri Jul 28 12:53:42 2023
    Hallo,

    eine leicht verspätete Plattenrotation im zpool begann ganz normal

    NAME STATE READ WRITE CKSUM
    raidz1-0 ONLINE 0 0 0
    replacing-0 ONLINE 0 0 0
    gpt/D5-16oct ONLINE 0 0 0
    gpt/D5e27sep ONLINE 0 0 0 (resilvering)

    um dann später Schweissperlen zu treiben:

    state: ONLINE
    status: One or more devices is currently being resilvered. The pool will
    continue to function, possibly in a degraded state.
    action: Wait for the resilver to complete.
    scan: resilver in progress since Fri Jul 28 09:48:10 2023
    905G resilvered, 29.73% done, 05:22:15 to go
    config:

    NAME STATE READ WRITE CKSUM
    raidz1-0 ONLINE 0 0 0
    replacing-0 ONLINE 0 0 8
    gpt/D5-16oct ONLINE 9 0 0 (resilvering)
    gpt/D5e27sep ONLINE 0 0 0 (resilvering)

    Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober, welche bisher völlig unauffällig war. Was mich jetzt irritiert, warum wird die alte Platte auch nach 30 Minuten immer noch im resilvering angezeigt? Als ich kürzlich den offline Status einer Platte hatte, wurden 60GB im resilver relativ zügig abgeschlossen, bei 9 Read Errors sollte dann die Sache doch auch sehr schnell erledigt sein?

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Windows 10: Pay for new hardware (2:240/77)
  • From Gerhard Strangar@2:240/2188.575 to Kai Richter on Sun Jul 30 14:13:46 2023
    Am 28 Jul 23 12:53:42 schrob Kai Richter an Alle zum Thema
    <resilver panic>

    Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober, welche
    bisher voellig unauffaellig war. Was mich jetzt irritiert, warum wird die alte Platte auch nach 30 Minuten immer noch im resilvering angezeigt?

    Ich wuerde mal sagen, dass damit nur angezeigt wird, dass da Fehler korrigiert werden msuesten, nachdem das aber kaeme, sobald sie ersetzt ist, passiert das wohl nie.



    Tschoe mit Oe
    Gerhard
    ---
    * Origin: (2:240/2188.575)
  • From Kai Richter@2:240/77 to Gerhard Strangar on Sun Jul 30 19:58:38 2023
    Hallo Gerhard!

    Am 30 Jul 23, Gerhard Strangar schrieb an Kai Richter:

    warum wird die alte Platte auch nach 30 Minuten immer noch im
    resilvering angezeigt?

    Ich wuerde mal sagen, dass damit nur angezeigt wird, dass da Fehler korrigiert werden msuesten, nachdem das aber kaeme, sobald sie ersetzt ist, passiert das wohl nie.

    Hm, als neulich eine Platte offline ging und ich sie mit dem zpool online Befehl wieder aktiviert habe, wurde das resilver auch automatisch gestartet, allerdings war das dann auch der einzige resilver Prozess.

    Die Frage wieviele resilver gleichzeitig in einem pool laufen können hab ich mir bisher nicht gestellt. Auch bei dem replace bin ich auf Nummer Sicher gegangen und habe immer nur eine Platte gleichzeitig ersetzt. Falls die wirklich nicht gleichzeitig laufen können, dann macht Deine Erklärung Sinn.

    Ich habe weiter gesucht und nun diese Bestätigung gefunden:

    # zpool get feature@resilver_defer pool
    NAME PROPERTY VALUE SOURCE
    pool feature@resilver_defer enabled local

    "This feature allows ZFS to postpone new resilvers if an existing one is already in progress. Without this feature, any new resilvers will cause the currently running one to be immediately restarted from the beginning."

    Inzwischen ist das replace der alten Platte fertig, daher wird sie logischerweise auch nicht mehr angezeigt. Da ich zügig weiter kommen will, habe die alte Platte gleich ausgebaut und ungesehen hingelegt. Da fällt mir ein, müssen die noch mit labelclear oder gpart von den zpool Resten befreit werden, oder ist das mit dem replace bereits erledigt worden?

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Boerse, den letzten beissen die Hunde (2:240/77)
  • From Gerrit Kuehn@2:240/12 to Kai Richter on Sun Jul 30 21:16:03 2023
    Hello Kai!

    28 Jul 23 12:53, Kai Richter wrote to Alle:

    Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober, welche
    bisher völlig unauffällig war.

    Wann war der letzte Scrub?

    Was mich jetzt irritiert, warum wird
    die alte Platte auch nach 30 Minuten immer noch im resilvering
    angezeigt? Als ich kürzlich den offline Status einer Platte hatte,
    wurden 60GB im resilver relativ zügig abgeschlossen, bei 9 Read
    Errors sollte dann die Sache doch auch sehr schnell erledigt sein?

    Bewegen sich die Zahlen noch? Irgendwas Erhellendes im dmesg? Was sagt smartctl?


    Regards,
    Gerrit

    ... 9:16PM up 495 days, 2:22, 7 users, load averages: 0.52, 0.69, 0.75

    --- msged/fbsd 6.3 2021-12-02
    * Origin: Ideas of lust and dying (2:240/12)
  • From Kai Richter@2:240/77 to Gerrit Kuehn on Mon Jul 31 21:05:58 2023
    Tach Gerrit!

    Am 30 Jul 23, Gerrit Kuehn schrieb an Kai Richter:

    Dabei ist D5-16oct eine WD Red mit Baujahr 2016 im Oktober,
    welche bisher völlig unauffällig war.

    Wann war der letzte Scrub?

    Du hörst wie sich ein leises Pfeifen entfernt...
    Noch nie...

    Was mich jetzt irritiert, warum wird
    die alte Platte auch nach 30 Minuten immer noch im resilvering
    angezeigt? Als ich kürzlich den offline Status einer Platte
    hatte, wurden 60GB im resilver relativ zügig abgeschlossen, bei 9
    Read Errors sollte dann die Sache doch auch sehr schnell erledigt
    sein?

    Bewegen sich die Zahlen noch?

    Nein, die Disk ist inzwischen ersetzt und aus dem System raus.

    Irgendwas Erhellendes im dmesg?

    Eines meiner scripte hat dieses dmesg.backup.txt eingefangen:

    (ada4:ahcich4:0:0:0): READ_FPDMA_QUEUED. ACB: 60 c0 80 ec 06 40 01 00 00 07 00 00
    (ada4:ahcich4:0:0:0): CAM status: ATA Status Error
    (ada4:ahcich4:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC ) (ada4:ahcich4:0:0:0): RES: 41 40 a0 ed 06 40 01 00 00 00 00 (ada4:ahcich4:0:0:0): Retrying command, 3 more tries remain

    Wurde nach 5 Retries abgebrochen. Ich kann aber keinen genauen Zusammenhang herstellen, welche Platte zu der Zeit an ada4 hing. Das BIOS verändert die ada Reihenfolge wenn ein SATAn Kabel nicht angeschlossen ist, andere Platten rücken dann vor. Ich meine einmal hat sich sogar die Reihenfolge bei den vier unangetasteten Platten (ada0-3) verändert. Vermutlich wenn eine Platte länger braucht um sich zu melden. Das ist manuell so ein Krampf, ich bin immer froh wenn das gpt label auf der richtigen Platte gelandet ist.

    Die Fehlermeldung oben weist nach Inet Suche auf ein Kabelproblem hin. Ich hatte die Stromkabel für die Austauschplatte gekreuzt über einem SATA Kabel liegen, kann sein, dass da beim Powerup Störungen entstanden sind. Die SATA Kabel des Supermicro Boards mit dem viereckigen Stecker sind so dünn, da frag ich mich ob die Abschirmung was taugt.

    Ach ja, ich hab die Platten kalt getauscht, also immer poweroff / poweron.

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Cheap, Fast, Reliable - pick any two. (2:240/77)
  • From Gerhard Strangar@2:240/2188.575 to Kai Richter on Mon Jul 31 17:18:18 2023
    Am 30 Jul 23 19:58:38 schrob Kai Richter an Gerhard Strangar zum Thema <resilver panic>

    will, habe die alte Platte gleich ausgebaut und ungesehen hingelegt. Da faellt mir ein, muessen die noch mit labelclear oder gpart von den zpool Resten befreit werden, oder ist das mit dem replace bereits erledigt worden?

    Warum sollte ein zpool replace irgendwelche Partitionstabellen loeschen? Die neue Platte ist ueberschrieben, auf der alten ist noch alles drauf.



    Tschoe mit Oe
    Gerhard
    ---
    * Origin: (2:240/2188.575)
  • From Gerrit Kuehn@2:240/12 to Kai Richter on Tue Aug 1 21:21:35 2023
    Hello Kai!

    31 Jul 23 21:05, Kai Richter wrote to Gerrit Kuehn:

    Wann war der letzte Scrub?

    Du hörst wie sich ein leises Pfeifen entfernt...
    Noch nie...

    Das ist -gerade mit so alter Hardware- eher mutig...

    entstanden sind. Die SATA Kabel des Supermicro Boards mit dem
    viereckigen Stecker sind so dünn, da frag ich mich ob die Abschirmung
    was taugt.

    Breakout-Kabel von SFF-8087 auf SATA? Die Originalteile von SM sind eigentlich ganz brauchbar, da gibt es deutlich schlechtere. Defekte oder auch nur schlecht gesteckte Kabel kann man natürlich trotzdem immer haben.


    Regards,
    Gerrit

    ... 9:21PM up 497 days, 2:27, 7 users, load averages: 1.17, 0.81, 0.84

    --- msged/fbsd 6.3 2021-12-02
    * Origin: Shock to the System (2:240/12)
  • From Kai Richter@2:240/77 to Gerrit Kuehn on Wed Aug 2 14:05:44 2023
    Hallo Gerrit!

    Am 01 Aug 23, Gerrit Kuehn schrieb an Kai Richter:

    [scrub]
    Noch nie...

    Das ist -gerade mit so alter Hardware- eher mutig...

    Bei mir liegt es wohl eher an unerfahren und vertrauen in zfs. Die read errors scheint das System ja locker weggesteckt zu haben, für irgendwas muss raidz ja gut sein. Ich hatte allerdings auch seit einem halben Jahr ein Backup.

    Breakout-Kabel von SFF-8087 auf SATA?

    Ich bin zu faul die Nummer nachzusehen, aber etwas mit SFF oder SPP dürfte passen und zu SATA geht es auch.

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Solar HQ (2:240/77)
  • From Gerhard Strangar@2:240/2188.575 to Gerrit Kuehn on Thu Aug 3 17:35:53 2023
    Am 01 Aug 23 21:21:35 schrob Gerrit Kuehn an Kai Richter zum Thema
    <resilver panic>

    Wann war der letzte Scrub?
    Du hoerst wie sich ein leises Pfeifen entfernt...
    Noch nie...
    Das ist -gerade mit so alter Hardware- eher mutig...

    Das Problem ist doch eher, dass ZFS staendig Fehler findet, wo mit XFS keine zu sehen waren. ;-)



    Tschoe mit Oe
    Gerhard
    ---
    * Origin: (2:240/2188.575)
  • From Gerrit Kuehn@2:240/12 to Gerhard Strangar on Fri Aug 4 21:57:14 2023
    Hello Gerhard!

    03 Aug 23 17:35, Gerhard Strangar wrote to Gerrit Kuehn:

    Das ist -gerade mit so alter Hardware- eher mutig...

    Das Problem ist doch eher, dass ZFS staendig Fehler findet, wo mit
    XFS keine zu sehen waren. ;-)

    Das ist vermutlich *der* Grund, warum man auch kein ECC-RAM einsetzen sollte... hättest Du mir das nur schon vor Jahren verraten!


    Regards,
    Gerrit

    ... 9:57PM up 500 days, 3:03, 7 users, load averages: 0.95, 0.87, 0.83

    --- msged/fbsd 6.3 2021-12-02
    * Origin: All carefully conceived (2:240/12)
  • From Kai Richter@2:240/77 to Alle on Wed Jan 3 23:53:00 2024
    Tach Alle!

    Am 28 Jul 23, Kai Richter schrieb an Alle:

    eine leicht verspätete Plattenrotation im zpool begann ganz normal
    gpt/D5-16oct ONLINE 0 0 0
    gpt/D5e27sep ONLINE 0 0 0 (resilvering)
    um dann später Schweissperlen zu treiben:

    Ich glaube irgendwo ist der Wurm drin.

    state: SUSPENDED
    status: One or more devices are faulted in response to IO failures.
    action: Make sure the affected devices are connected, then run 'zpool clear'.
    see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-HC
    scan: resilvered 108K in 00:00:00 with 0 errors on Tue Jan 2 12:25:58 2024 config:

    NAME STATE READ WRITE CKSUM
    pool4 UNAVAIL 0 0 0 insufficient replicas
    raidz1-0 UNAVAIL 0 0 0 insufficient replicas
    gpt/D5e27sep ONLINE 0 0 0
    gpt/D6e27dec ONLINE 0 0 0
    gpt/D7e27dec REMOVED 0 0 0
    gpt/D8e26dec REMOVED 0 0 0
    errors: List of errors unavailable: pool I/O is currently suspended

    errors: 4 data errors, use '-v' for a list

    D5 ist die Platte vom Juli, e YYmon ist Garantieablauf. Neulich war mal kurz D7 weg, dann war wieder eine Zeit lang alles normal. Über die Feiertage lief das System auf idle unbenutzt, am ersten Tag der Nutzung ist dann auf einmal D8 ausgestiegen. Am Rechner hörte man dann ein leises Zirpen, als würde die Platte wiederholt einen Neustart versuchen. Um die Kiste zu beruhigen habe ich D8 abgeklemmt und den Pool erstmal im degraded weiter benutzt, was den Tag auch gut funktioniert hat. Am nächsten Tag war dann auch D7 weg??

    Ich habe dann erstmal alles runter gefahren und bin mit dem Gefühl des single point of failure schlafen gegangen. Danach nochmal Abstand halten, auf der Arbeit den ganzen Tag gegrübelt. Es kann doch nicht sein, dass zwei fast neue Platten aus unterschiedlichen Margen zeitgleich ausfallen wollen.

    Die erste direkte Gemeinsamkeit der beiden Platten: Mangels Kabel wurden sie über ein Y-Kabel mit Strom versorgt. Das hat auf der einen Seite einen bombenfest sitzenden Molex Stecker, der dann auf zwei SATA Power verteilt.

    Das Board hat 12 SATAn Ports, ich kann da drei Pools je 4 HD anschliessen und habe aber nur zwei, also 8 Platten dran. Ich habe jetzt mal das Y-Kabel getrennt und die Stromkabel des dritten Pools rüber gezogen. Zu meiner (gedämpften) Begeisterung war der Pool nach ein paar kb resilver wieder voll online. Nach 24 Stunden ist der Pool noch da, bisher ohne grosse Last.

    Wie kann es sein, dass ein Stromkabel nach Monaten anfängt zicken zu machen? (Falls es das jetzt wirklich war)

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Rede lieber fuer Dich allein, dann hast Du immer recht. (2:240/77)
  • From Gerhard Strangar@2:240/2188.575 to Kai Richter on Thu Jan 4 16:19:42 2024
    Am 03 Jan 24 23:53:00 schrob Kai Richter an Alle zum Thema
    <zpool panic>

    Wie kann es sein, dass ein Stromkabel nach Monaten anfaengt zicken zu machen? (Falls es das jetzt wirklich war)

    Ich bezweifle, dass es das Stromkabel ist. Ich wuerde eher vermuten, dass die Problemplatte bald wieder ausfaellt und dann gar nicht mehr ansprechbar ist.



    Tschoe mit Oe
    Gerhard
    ---
    * Origin: (2:240/2188.575)
  • From Gerrit Kuehn@2:240/12 to Kai Richter on Thu Jan 4 18:18:24 2024
    Hello Kai!

    03 Jan 24 23:53, Kai Richter wrote to Alle:

    Wie kann es sein, dass ein Stromkabel nach Monaten anfängt zicken zu machen?
    (Falls es das jetzt wirklich war)

    Ist das Netzteil in Ordnung?


    Regards,
    Gerrit

    ... 6:18PM up 653 days, 24 mins, 7 users, load averages: 0.96, 0.79, 0.77

    --- msged/fbsd 6.3 2021-12-02
    * Origin: Dry thoughts for the tenant (2:240/12)
  • From Kai Richter@2:240/77 to Gerrit Kuehn on Fri Jan 5 01:54:46 2024
    Tag Gerrit!

    Am 04 Jan 24, Gerrit Kuehn schrieb an Kai Richter:

    Wie kann es sein, dass ein Stromkabel nach Monaten anfängt zicken
    zu machen? (Falls es das jetzt wirklich war)

    Ist das Netzteil in Ordnung?

    Die IPMI Stromwerte sehen soweit gut aus. Ich hatte in der Übergangsphase 3 pools dran, also 12 HDD, 3,5" drehend. Eine Belastungstestumgebung für Netzteile habe ich nicht. NT hat 350W, sollte eigentlich reichen.

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Seven holy path to hell (2:240/77)
  • From Kai Richter@2:240/77 to Gerhard Strangar on Tue Jan 16 14:16:48 2024
    Tach auch Gerhard!

    Am 04 Jan 24, Gerhard Strangar schrieb an Kai Richter:

    Wie kann es sein, dass ein Stromkabel nach Monaten anfaengt zicken
    zu machen? (Falls es das jetzt wirklich war)

    Ich bezweifle, dass es das Stromkabel ist. Ich wuerde eher vermuten,
    dass die Problemplatte bald wieder ausfaellt und dann gar nicht mehr ansprechbar ist.

    Ich habe immer wieder den pool status überprüft. Seitdem ich die Stromanschlüsse getauscht habe, gab es keine weiteren Ausfälle mehr.

    Die Stromversorgung sehe ich daher als Ursache, jetzt bleibt noch offen ob es das Y-Kabel ist, oder ob sich der Kabelstrang eine kalte Lötstelle eingefangen hat.

    Tschuess

    Kai

    --- GoldED+/LNX 1.1.4.7
    * Origin: Hotshot, climb to FL3000... (2:240/77)