Eilinen dedi-crash > raidin uudelleenrakennus

Aloittaja weatherc, perjantai, 20.04.2012, 13:57

« edellinen - seuraava »

0 Jäsenet ja 1 Vieras katselee tätä aihetta.

weatherc

Hetznerin sällit sai purkin käyntiin noin puolessa tunnissa siitä kun lähetin "manual reset"-pyynnön. Ei hassumpi suoritus ottaen huomioon että supportti on ilmainen ja ilman SLA:ta. :)
Samalla tuli testattua että cPanel-siirron jälkeen bootti onnistuu ja kaikki softat käynnistyvät OK.

Syy crashiin oli kernel-panic ja se urputti jotain kovalevystä. Pitää ajaa heitin ohjeiden mukainen testi sille ja katsoa mitä se kertoo.

EDIT: Smartctl käynnissä, arvioitu kesto reilut 3 tuntia...

weatherc

Tässä tulosta odotellessa niin pieni info tuosta bootti-systeemistä joka H:lla on...

On 3 vaihtoehtoa:
- Soft reset eli CTR-ALT-DEL
- Soft hardware reset
- Manual hardware reset

Eilen kävin nuo kaikki läpi ylhäältä alkaen odottaen hetken (~10min) välissä että tapahtuuko mitään :P
Sen näkee esim jo siitä että kuin kauan kestää SSH:n "Network-error"-ilmolla ennenkun ilmestyy.

Manual resetti on käytännössä maili datacentteriin että käyvät kurkistamassa että mitä purkki sanoo ja boottaa sen tarvittaessa. Tämä on luonnollisesti se hitain koska riippuu myös datacenter-sällien jonosta, eikä sen kestosta voi antaa mitään arviota.
Ylläpitona ei voi kun odottaa että joko purkki herää henkiin (kuten eilen) ja/tai mailia heiltä.

weatherc

Tulos valmis ja palaute saatu datacentteristä. Ei kovin hurrattavaa lukemista kovalevyn suhteen, "read failure 90%". Sen levyn tarina oli siinä ja Hetzner vaihtaa sen. Meillä RAID mutta täytyy ensin joka tapauksessa ottaa backuppi systeemistä.



weatherc

Dedillä suoritetaan toisen RAIDissa olevan kovalevyn vaihto. Arvioitu alhaallaoloaika 30min.
Tarkkaa aloittamisajankohtaa en tiedä mutta OK-viesti datacentteriin on lähtenyt.

Snowi

Ahaa tästä johtui siis tämän päiväinen katko. Kerkesin jo kirjoittaa tonne karttathreadiin asiasta ennen kuin luin tämän :)

weatherc

Katkosta tuli pikkasen pidempi kun 30min...:P

Kun olivat vaihtaneet levyn niin eipähän käynnistynytkään vaan toiselta levyltä...
Noh, pikkasen aikaa ihmettelin rescuemodessa ja ajoin yhden fsck-testin, ja tietäen että viimeinen vaihtoehto on uudelleenasennus, mutta myöskin että tuo rescuemode on ennenkin tehnyt "ihmeparantamisia" niin aattelin koekilla reboottia. Ja hep, nätisti käynnistyi...

Välillä ovat pikkasen henkimaailman juttuja nämä...

Henkka

Snowi

Jaahas, näyttäisi olevan kadonnut kaikki mailit ainakin huhtikuun 5 päivästä alkaen. Myös asemien käyrät ovat hävinneet huhtikuun 6. päivästä alkaen. Tosin nuo palaa takaisin kunhan uusimmat upit tehdään, mutta kai myös mailit on backupissa turvassa? Mulla olisi erittäin tärkeetä saada ne takaisin.

weatherc

#7
P***een software-raidi, siinä ehjällä levyllä oli kaikki datat mallia 6.4. HW-raid se pitäisi olla eikä mitään pilipali softaa, mutta sen hinta on sen mukainen...

LainaaJaahas, näyttäisi olevan kadonnut kaikki mailit ainakin huhtikuun 5 päivästä alkaen. Myös asemien käyrät ovat hävinneet huhtikuun 6. päivästä alkaen. Tosin nuo palaa takaisin kunhan uusimmat upit tehdään, mutta kai myös mailit on backupissa turvassa? Mulla olisi erittäin tärkeetä saada ne takaisin.
Juuh, backupit päivitetiin ennen vaihtoa.
Kestää vaan hetkosen ladata se 25+GB tuolta backuptilasta vaikka kuinka puskisi 85 Mbittä alaspäin, saatikka palauttaa ne, joku 4 GB tar kestää heeeetkosen purkaantua :P
Mutta sinänsä vaikeaa se ei ole nyt kun cpaneli, vie vaan aikaa...

EDIT: Sivut pitäisi olla suht "back on track" eli tilassa suunnilleen klo 18 eilen :)

weatherc

Tuota raidia pitää vielä pikkasen tutkailla että miksi noin ylipäätänsä kävi että datat oli 6.4 päivättyjä. Nehän olisi pitänyt olla ainakin suht tuoreita (en ole sen syvemmin tutustunut raidin sielunelämään ;)).
Löysin myös syyn miksi bootti failas levynvaihdon jälkeen. Hetznerin sällit olisi myös pitänyt vaihtaa toimivan levyn paikkaan a paikasta b. Nytten kun a oli uusi systeemi koitti bootata siitä tyhjästä levystä eikähän siitä mitään tullut....

weatherc

No niin...

Ollut tässä pitkin päivää yhteydessä tuonne datacentteriin koskien tuota raidia ja koska uusi levy on levy 1 niin raidi pitää uudelleenrakentaa rescuemodessa*. Eli lisää downtimeä tiedossa. Sigh!
Jotta homma olisi täydellinen niin resynkkauskin pitää tehdä rescuemodessa joka luonnollisesti kestää kotvasen kun 750GB levy kyseessä.

Luin jostain että jos olisivat älynneet vaihtaa levyjen paikkoja (levy 2 on se toimiva) niin olisi purkin pitänyt bootata OK levynvaihdon jälkeen. Näin ei nyt ole laita vaan levy 1 on se uusi.

Palaan asiaan milloin tämä tapahtuu.

* rescuemode: Purkki käynnistetään Hetznerin Bootserverin kautta minimaalisella Linuxsysteemillä jolloin pääsee käsiksi purkin levyihin.

[erittäin ruma sana tähän]