Hetznerin sällit sai purkin käyntiin noin puolessa tunnissa siitä kun lähetin "manual reset"-pyynnön. Ei hassumpi suoritus ottaen huomioon että supportti on ilmainen ja ilman SLA:ta. :)
Samalla tuli testattua että cPanel-siirron jälkeen bootti onnistuu ja kaikki softat käynnistyvät OK.
Syy crashiin oli kernel-panic ja se urputti jotain kovalevystä. Pitää ajaa heitin ohjeiden mukainen testi sille ja katsoa mitä se kertoo.
EDIT: Smartctl käynnissä, arvioitu kesto reilut 3 tuntia...
Tässä tulosta odotellessa niin pieni info tuosta bootti-systeemistä joka H:lla on...
On 3 vaihtoehtoa:
- Soft reset eli CTR-ALT-DEL
- Soft hardware reset
- Manual hardware reset
Eilen kävin nuo kaikki läpi ylhäältä alkaen odottaen hetken (~10min) välissä että tapahtuuko mitään :P
Sen näkee esim jo siitä että kuin kauan kestää SSH:n "Network-error"-ilmolla ennenkun ilmestyy.
Manual resetti on käytännössä maili datacentteriin että käyvät kurkistamassa että mitä purkki sanoo ja boottaa sen tarvittaessa. Tämä on luonnollisesti se hitain koska riippuu myös datacenter-sällien jonosta, eikä sen kestosta voi antaa mitään arviota.
Ylläpitona ei voi kun odottaa että joko purkki herää henkiin (kuten eilen) ja/tai mailia heiltä.
Tulos valmis ja palaute saatu datacentteristä. Ei kovin hurrattavaa lukemista kovalevyn suhteen, "read failure 90%". Sen levyn tarina oli siinä ja Hetzner vaihtaa sen. Meillä RAID mutta täytyy ensin joka tapauksessa ottaa backuppi systeemistä.
Dedillä suoritetaan toisen RAIDissa olevan kovalevyn vaihto. Arvioitu alhaallaoloaika 30min.
Tarkkaa aloittamisajankohtaa en tiedä mutta OK-viesti datacentteriin on lähtenyt.
Ahaa tästä johtui siis tämän päiväinen katko. Kerkesin jo kirjoittaa tonne karttathreadiin asiasta ennen kuin luin tämän :)
Katkosta tuli pikkasen pidempi kun 30min...:P
Kun olivat vaihtaneet levyn niin eipähän käynnistynytkään vaan toiselta levyltä...
Noh, pikkasen aikaa ihmettelin rescuemodessa ja ajoin yhden fsck-testin, ja tietäen että viimeinen vaihtoehto on uudelleenasennus, mutta myöskin että tuo rescuemode on ennenkin tehnyt "ihmeparantamisia" niin aattelin koekilla reboottia. Ja hep, nätisti käynnistyi...
Välillä ovat pikkasen henkimaailman juttuja nämä...
Henkka
Jaahas, näyttäisi olevan kadonnut kaikki mailit ainakin huhtikuun 5 päivästä alkaen. Myös asemien käyrät ovat hävinneet huhtikuun 6. päivästä alkaen. Tosin nuo palaa takaisin kunhan uusimmat upit tehdään, mutta kai myös mailit on backupissa turvassa? Mulla olisi erittäin tärkeetä saada ne takaisin.
P***een software-raidi, siinä ehjällä levyllä oli kaikki datat mallia 6.4. HW-raid se pitäisi olla eikä mitään pilipali softaa, mutta sen hinta on sen mukainen...
LainaaJaahas, näyttäisi olevan kadonnut kaikki mailit ainakin huhtikuun 5 päivästä alkaen. Myös asemien käyrät ovat hävinneet huhtikuun 6. päivästä alkaen. Tosin nuo palaa takaisin kunhan uusimmat upit tehdään, mutta kai myös mailit on backupissa turvassa? Mulla olisi erittäin tärkeetä saada ne takaisin.
Juuh, backupit päivitetiin ennen vaihtoa.
Kestää vaan hetkosen ladata se 25+GB tuolta backuptilasta vaikka kuinka puskisi 85 Mbittä alaspäin, saatikka palauttaa ne, joku 4 GB tar kestää heeeetkosen purkaantua :P
Mutta sinänsä vaikeaa se ei ole nyt kun cpaneli, vie vaan aikaa...
EDIT: Sivut pitäisi olla suht "back on track" eli tilassa suunnilleen klo 18 eilen :)
Tuota raidia pitää vielä pikkasen tutkailla että miksi noin ylipäätänsä kävi että datat oli 6.4 päivättyjä. Nehän olisi pitänyt olla ainakin suht tuoreita (en ole sen syvemmin tutustunut raidin sielunelämään ;)).
Löysin myös syyn miksi bootti failas levynvaihdon jälkeen. Hetznerin sällit olisi myös pitänyt vaihtaa toimivan levyn paikkaan a paikasta b. Nytten kun a oli uusi systeemi koitti bootata siitä tyhjästä levystä eikähän siitä mitään tullut....
No niin...
Ollut tässä pitkin päivää yhteydessä tuonne datacentteriin koskien tuota raidia ja koska uusi levy on levy 1 niin raidi pitää uudelleenrakentaa rescuemodessa*. Eli lisää downtimeä tiedossa. Sigh!
Jotta homma olisi täydellinen niin resynkkauskin pitää tehdä rescuemodessa joka luonnollisesti kestää kotvasen kun 750GB levy kyseessä.
Luin jostain että jos olisivat älynneet vaihtaa levyjen paikkoja (levy 2 on se toimiva) niin olisi purkin pitänyt bootata OK levynvaihdon jälkeen. Näin ei nyt ole laita vaan levy 1 on se uusi.
Palaan asiaan milloin tämä tapahtuu.
* rescuemode: Purkki käynnistetään Hetznerin Bootserverin kautta minimaalisella Linuxsysteemillä jolloin pääsee käsiksi purkin levyihin.
[erittäin ruma sana tähän]
Eikun otetaan härkää sarvista...
Eli alustava aatos on tehdä tuo pirun raid-rakennus pois päiväjärjestyksestä tänään alk noin klo 22, tämä tietenkin ukkosvarauksella. ;) Tänä aikana dedi on offline. Kestosta ei ole sitten minkäänlaista hajuakaan, voi kestää tunnin tai mennä aamuun.
Noilla Hangon suunnalta tulevilla sadepilvillä on kolme varttia aikaa päättää että meinaako väsätä myös aktiviteettiä vai ei, aika tumman oloiset ovat kyllä...
Raidin uudelleenrakennus alkaa 10 min sisään jolloin dedi menee offlineen.
EDIT: No niin, käynnissä. Se arvoi ajaksi parisen tuntia.
EDIT 00:40: 90%:ssa mennään...Hidastunut pikkasen loppua kohti tuo tahti..
EDIT 02:00: Takaisin linjoilla.
Miltä näyttää tällä hetkellä tilanne? :)
Linjoilla ollaan taas :)
Kokonaisuudessaan meni ihan piirrustuksen, eli Hetznerin wikin mukaisesti :)
Jäi yksi seikka ihmetyttämään tästä zombalosta HDD-vaihdon kanssa..
levy 1 oli se joka vaihdettiin jossa oli 90% read-erroria. Samainen levy on se josta purkki boottaa ensimmäiseksi.
levy 2 oli se josta se boottas vaihdon ja kernel-panicin jälkeen, sen data oli kuitenkin päivätty 6.4.
Millä ilveellä meillä oli tuoretta dataa 6-20.4 tahikka purkki edes pysys hengissä jos levy oli sökö?
Koska tuo 6.4 ollut datahan ainakin loogisesti ajatellen tarkoittaa sitä että levy alko huutaa viimeisiään jo tuolloin eikä RAID siten saanut peilattua dataa toiselle levylle.
Lainaus käyttäjältä: weatherc - maanantai, 23.04.2012, 14:32
Koska tuo 6.4 ollut datahan ainakin loogisesti ajatellen tarkoittaa sitä että levy alko huutaa viimeisiään jo tuolloin eikä RAID siten saanut peilattua dataa toiselle levylle.
Eli tästähän olisi voinut muodostua varsinainen katastrofi jos tuo viimeinenkin levy olisi rikkoontunut. Olisiko meillä enää sen jälkeen ollut dataa missään backuppina?
Jos levy tosiaan meni jo 6.4 rikki, niin tuollainen olisi pitänyt ehdottomasti huomata jo silloin välittömästi, ei vasta kahden viikon päästä tapauksesta.
LainaaEli tästähän olisi voinut muodostua varsinainen katastrofi jos tuo viimeinenkin levy olisi rikkoontunut. Olisiko meillä enää sen jälkeen ollut dataa missään backuppina?
Olisi, backuptilan zipit, siellä on ne zipit josta cPanel palauttaa sivut ja tilit filuineen, tietokantoineen päivineen ;D
Lainaa
Jos levy tosiaan meni jo 6.4 rikki, niin tuollainen olisi pitänyt ehdottomasti huomata jo silloin välittömästi, ei vasta kahden viikon päästä tapauksesta.
Tässä onkin se vekkuli, mikään ei antanut viitettä että jotain olisi ollut tekeillä, kaikki toimis täysin normaalisti aina viime torstaihin asti. Vasta silloinen kaatuminen ja sen jälkeinen kernel-panic bootin yhteydessä antoi viitettä että jotain on vialla.
Lainaus käyttäjältä: weatherc - maanantai, 23.04.2012, 15:38
Olisi, backuptilan zipit, siellä on ne zipit josta cPanel palauttaa sivut ja tilit filuineen, tietokantoineen päivineen ;D
Hieno kuulla, että on backupit riittävän hyvin varmistettu ;D
Lainaa
Tässä onkin se vekkuli, mikään ei antanut viitettä että jotain olisi ollut tekeillä, kaikki toimis täysin normaalisti aina viime torstaihin asti. Vasta silloinen kaatuminen ja sen jälkeinen kernel-panic bootin yhteydessä antoi viitettä että jotain on vialla.
Juu se näillä kiintolevyillä yleensä onkin, että eivät välttämättä kovin selviä merkkejä rikkoutumisestaan anna ennen kuin se todella tapahtuu. Tosin kotikäytössä saattaa kummia ruveta tapahtumaan jo selvästi ennen lopullista rikkoutumista ja jos ahkeraan käyttää konetta, niin silloin sen saattaa huomata tarpeeksi ajoissa.
Ajetaanko kiintolevyillä säännöllisesti mitään testejä, joista mahdolliset viat voisivat ilmetä jo hyvinkin aikaisin?
Jälleen kiitokset weatherc:lle loistavasta työstä asian hoidossa :). Hienosti toimi ilmeisesti myös Hetzerin aspa ja uusi hallintapaneelimme cPanel ;D
LainaaAjetaanko kiintolevyillä säännöllisesti mitään testejä, joista mahdolliset viat voisivat ilmetä jo hyvinkin aikaisin?
En tiedä ajaako cPanel jotain testejä mutta pitää laittaa tuo smarttools, eli se jolla tehtiin se testi perjantaina, seuraamaan tilannetta. Sehän se huono puoli etä-purkissa on ettei pysty kuulo-seuraamaan kummallisia ääniä tai vastaavia mitä nuo levyt ehkä pitäisi ennen lopullista hajoamista mitä pystyy kotopurkissa.
LainaaHienosti toimi ilmeisesti myös Hetzerin aspa ja uusi hallintapaneelimme cPanel
Juuh, Hetznerin aspa toimis puitteidensa mukaisesti ihan hienosti "unmanaged" purkki kun on. Unmanaged tarkoittaa käytännössä että heidän heiniä on rauta, softa on asiakkaan päänsärky. Mutta ihan hienosti venytti pikkasen sitäkin rajaa ja kertoi mitä pitäisi tehdä. Siinä lisäksi on heidän wiki jossa esim eiliset toimet on kerrottu komentoineen päivineen. :)
cPanelin paremmuus verrattuna Pleskiin tuli parhaiten ilmi kun palautin tilit levynvaihdon jälkeen jolloin suurin aika meni odottamiseen kun odotti että 25+ GB latautuu backuptilasta sekä että cPanel purkaa ne samat, ei niinkään pään rapsuttamiseen :)
Tulipa myös, jälleen kerran, todistettua riittävän tuoreiden backuppien tärkeys ja se kuinka tärkeää on että ne tallennetaan erillään olevalle medialle, on sitten kyse kotopurkista tai serveristä :)
Ja, tulipa tutustuttua pikkasen enemmän taas tuohon Hetznerin bootserveriin, aivan pirun ovela keksintö. :)
Näin jälkikäteen, jos olisi tiennyt, olisi voinut tehdä eiliset toimet jo perjantaina sekä ennen levynvaihtoa kysynyt aspalta tuosta levyjen paikkojen vaihtoa että olisiko sittä ollut mitään hyötyä. Se ei olisi auttanut tilannetta 6.4-datan kanssa mutta olisi voinut rakentaa raidin purkin ollessa käynnissä jos uusi levy olisi ollut levy 2, ehkä.
Minkälaisella systeemillä teet backupit?
LainaaMinkälaisella systeemillä teet backupit?
cPanel (eli dedin hallintapneeli) tekee tileistä zipit haluttuina öinä + ajastettu shell-skripti joka uppaa ne backuptilaan.
Ajallisesti niin backuppaus kestää noin 3 tuntia sekä uppaus vajaan tunnin meidän 25+ GB datalle.