Eilinen dedi-crash > raidin uudelleenrakennus

Aloittaja weatherc, perjantai, 20.04.2012, 13:57

« edellinen - seuraava »

0 Jäsenet ja 1 Vieras katselee tätä aihetta.

weatherc

#10
Eikun otetaan härkää sarvista...

Eli alustava aatos on tehdä tuo pirun raid-rakennus pois päiväjärjestyksestä tänään alk noin klo 22, tämä tietenkin ukkosvarauksella. ;) Tänä aikana dedi on offline. Kestosta ei ole sitten minkäänlaista hajuakaan, voi kestää tunnin tai mennä aamuun.

weatherc

Noilla Hangon suunnalta tulevilla sadepilvillä on kolme varttia aikaa päättää että meinaako väsätä myös aktiviteettiä vai ei, aika tumman oloiset ovat kyllä...

weatherc

#12
Raidin uudelleenrakennus alkaa 10 min sisään jolloin dedi menee offlineen.

EDIT: No niin, käynnissä. Se arvoi ajaksi parisen tuntia.
EDIT 00:40: 90%:ssa mennään...Hidastunut pikkasen loppua kohti tuo tahti..
EDIT 02:00: Takaisin linjoilla.

Snowi

Miltä näyttää tällä hetkellä tilanne? :)

weatherc

Linjoilla ollaan taas :)

Kokonaisuudessaan meni ihan piirrustuksen, eli Hetznerin wikin mukaisesti :)

weatherc

Jäi yksi seikka ihmetyttämään tästä zombalosta HDD-vaihdon kanssa..

levy 1 oli se joka vaihdettiin jossa oli 90% read-erroria. Samainen levy on se josta purkki boottaa ensimmäiseksi.
levy 2 oli se josta se boottas vaihdon ja kernel-panicin jälkeen, sen data oli kuitenkin päivätty 6.4.

Millä ilveellä meillä oli tuoretta dataa 6-20.4 tahikka purkki edes pysys hengissä jos levy oli sökö?
Koska tuo 6.4 ollut datahan ainakin loogisesti ajatellen tarkoittaa sitä että levy alko huutaa viimeisiään jo tuolloin eikä RAID siten saanut peilattua dataa toiselle levylle.

Snowi

Lainaus käyttäjältä: weatherc - maanantai, 23.04.2012, 14:32
Koska tuo 6.4 ollut datahan ainakin loogisesti ajatellen tarkoittaa sitä että levy alko huutaa viimeisiään jo tuolloin eikä RAID siten saanut peilattua dataa toiselle levylle.

Eli tästähän olisi voinut muodostua varsinainen katastrofi jos tuo viimeinenkin levy olisi rikkoontunut. Olisiko meillä enää sen jälkeen ollut dataa missään backuppina?

Jos levy tosiaan meni jo 6.4 rikki, niin tuollainen olisi pitänyt ehdottomasti huomata jo silloin välittömästi, ei vasta kahden viikon päästä tapauksesta.

weatherc

#17
LainaaEli tästähän olisi voinut muodostua varsinainen katastrofi jos tuo viimeinenkin levy olisi rikkoontunut. Olisiko meillä enää sen jälkeen ollut dataa missään backuppina?

Olisi, backuptilan zipit, siellä on ne zipit josta cPanel palauttaa sivut ja tilit filuineen, tietokantoineen päivineen ;D

Lainaa
Jos levy tosiaan meni jo 6.4 rikki, niin tuollainen olisi pitänyt ehdottomasti huomata jo silloin välittömästi, ei vasta kahden viikon päästä tapauksesta.

Tässä onkin se vekkuli, mikään ei antanut viitettä että jotain olisi ollut tekeillä, kaikki toimis täysin normaalisti aina viime torstaihin asti. Vasta silloinen kaatuminen ja sen jälkeinen kernel-panic bootin yhteydessä antoi viitettä että jotain on vialla.

Snowi

Lainaus käyttäjältä: weatherc - maanantai, 23.04.2012, 15:38
Olisi, backuptilan zipit, siellä on ne zipit josta cPanel palauttaa sivut ja tilit filuineen, tietokantoineen päivineen ;D

Hieno kuulla, että on backupit riittävän hyvin varmistettu  ;D

Lainaa
Tässä onkin se vekkuli, mikään ei antanut viitettä että jotain olisi ollut tekeillä, kaikki toimis täysin normaalisti aina viime torstaihin asti. Vasta silloinen kaatuminen ja sen jälkeinen kernel-panic bootin yhteydessä antoi viitettä että jotain on vialla.

Juu se näillä kiintolevyillä yleensä onkin, että eivät välttämättä kovin selviä merkkejä rikkoutumisestaan anna ennen kuin se todella tapahtuu. Tosin kotikäytössä saattaa kummia ruveta tapahtumaan jo selvästi ennen lopullista rikkoutumista ja jos ahkeraan käyttää konetta, niin silloin sen saattaa huomata tarpeeksi ajoissa.

Ajetaanko kiintolevyillä säännöllisesti mitään testejä, joista mahdolliset viat voisivat ilmetä jo hyvinkin aikaisin?

Jälleen kiitokset weatherc:lle loistavasta työstä asian hoidossa  :). Hienosti toimi ilmeisesti myös Hetzerin aspa ja uusi hallintapaneelimme cPanel  ;D

weatherc

LainaaAjetaanko kiintolevyillä säännöllisesti mitään testejä, joista mahdolliset viat voisivat ilmetä jo hyvinkin aikaisin?
En tiedä ajaako cPanel jotain testejä mutta pitää laittaa tuo smarttools, eli se jolla tehtiin se testi perjantaina, seuraamaan tilannetta. Sehän se huono puoli etä-purkissa on ettei pysty kuulo-seuraamaan kummallisia ääniä tai vastaavia mitä nuo levyt ehkä pitäisi ennen lopullista hajoamista mitä pystyy kotopurkissa.

LainaaHienosti toimi ilmeisesti myös Hetzerin aspa ja uusi hallintapaneelimme cPanel
Juuh, Hetznerin aspa toimis puitteidensa mukaisesti ihan hienosti "unmanaged" purkki kun on. Unmanaged tarkoittaa käytännössä että heidän heiniä on rauta, softa on asiakkaan päänsärky. Mutta ihan hienosti venytti pikkasen sitäkin rajaa ja kertoi mitä pitäisi tehdä. Siinä lisäksi on heidän wiki jossa esim eiliset toimet on kerrottu komentoineen päivineen. :)

cPanelin paremmuus verrattuna Pleskiin tuli parhaiten ilmi kun palautin tilit levynvaihdon jälkeen jolloin suurin aika meni odottamiseen kun odotti että 25+ GB latautuu backuptilasta sekä että cPanel purkaa ne samat, ei niinkään pään rapsuttamiseen :)
Tulipa myös, jälleen kerran, todistettua riittävän tuoreiden backuppien tärkeys ja se kuinka tärkeää on että ne tallennetaan erillään olevalle medialle, on sitten kyse kotopurkista tai serveristä :)

Ja, tulipa tutustuttua pikkasen enemmän taas tuohon Hetznerin bootserveriin, aivan pirun ovela keksintö. :)
Näin jälkikäteen, jos olisi tiennyt, olisi voinut tehdä eiliset toimet jo perjantaina sekä ennen levynvaihtoa kysynyt aspalta tuosta levyjen paikkojen vaihtoa että olisiko sittä ollut mitään hyötyä. Se ei olisi auttanut tilannetta 6.4-datan kanssa mutta olisi voinut rakentaa raidin purkin ollessa käynnissä jos uusi levy olisi ollut levy 2, ehkä.