Hätä-huoltokatko ohi - järjestelmä jälleen vakaa(n oloinen)

Aloittaja J.Jäntti, perjantai, 01.05.2015, 16:20

« edellinen - seuraava »

0 Jäsenet ja 1 Vieras katselee tätä aihetta.

J.Jäntti

FinWX:n virtualisointiympäristöä häirinnyt vika on saatu aisoihin uudelleenasennuksella.
Hätä-huoltokatko alkoi 01.05.2015 kello 15:00.

- ESXi Serveri nollattiin ja asennettiin uudelleen ja konfigurointityö saatiin päätökseen kello 15:40.
- FinWX:n virtuaaliserveri nousi ylös kello 15:45 ja Foorumin huoltotila otettiin pois käytöstä kello 15:47.
- Lokien tarkistuksen jälkeen todettiin järjestelmä stabiiliksi.
- Huoltotyön todettiin olevan ohi kello 15:57.

Pidämme järjestelmää tiukassa valvonnassa tämän viikonlopun ajan. Toivottavasti vastaavaa tilannetta ei enää muodostu - ei ainakaan siltä vaikuta lokimerkinnöistä päätellen.

Ylläpito pahoittelee häiriötä.
Juha Jäntti
Foorumin ja sivuston ylläpitäjä
Finland Weather Exchange (FinWX)

http://www.finwx.net/
------------------------------------------
Ukkoskausi avattu Suomessa: --.--.2024
Ukkoskausi avattu Helsingissä: --.--.2024
-------------------------------------------
Ukkospäivälaskuri 2024; Helsinki/Viikinmäki
0 ukkospäivää.
------------------------------------------
X, FinWX:n ylläpidon ilmoitukset
------------------------------------------

J.Jäntti

Järjestelmässä havaittiin samanlainen tuhoon eskaloituva yskäisy 01.05.2015 kello 23:08.
Tällä kertaa päällä oli lokivalvontaa kaikkiin mahdollisiin ja miltei mahdottomiin lokeihin, jota ESXi vain teki. Yskäisy tapahtui, kun ajoin alas tulevan säämittausserverin. Yskäisyn aikana saatiin ulos yksi ainoa rivi Warning-tasoisena, jossa luki jotain PCI Passthrough:sta ja laitteistojen irrotuksesta virtuaalikoneesta, kun yhtäkkiä ESXi:n kaksi ydintä neljästä vetäisi itsensä 100% ja yhteys ESXi:n ja vSphere Clientin välillä notkahti nurin. Sain SSH:lla suoritettua kaikkien muiden paitsi FinWX:n serverin alasajot. Tarkoituksena oli yrittää saada kuorma vauhdilla pois koneesta ennen kuin loputkin ytimet saavat itkupotkuraivarit.

02.05.2015 kello 00:00 sain ajettua rauhallisena, mitään mistään tietämättömän FinWX:n serverin alas hallitusti (vSphere Client nousi sen verran käyntiin että pääsin kiinni ohjaukseen), irrotin PCI Passthrough-laitteet ESXi:n näkökentästä, komensin ESXi:n Maintenance Modeen ja komensin koko kapineen alasajoon. Eipä mennyt, vaan jälleen kerran vmkernel päätti jäädä tanssimaan ripaskaa paikalleen. Koska lokimerkinnät antoivat ymmärtää että ESXi on käytännössä jo irrottanut esim. yhteydet levypakasta, vedin laitteelta tajun kankaalle, irrotin virtakaapelin, otin Boltekin kortin pois ja kasasin koneen takaisin paikalleen. Käynnistin koneen ja tällä kertaa ESXi nousi silminnähden nopeammin ylös kuin aiempina kertoina. FinWX:n serveri oli ensimmäinen, joka nostettiin koneista ylös. Kone starttasi kello 00:10 ja oli käyttökunnossa 00:12. Foorumi irrotettiin huoltotilasta kello 00:15.

Ylläpidollisesti tämä on ollut rankka Vappu: Ensin disassosiaatio-ongelmat ja sitten Boltekin kortti, joka ei tykännyt isäntäkoneesta sai koko ESXi:n romuksi.
Nyt ovat ongelmat selätetty ja pystytään keskittymään seuraavaksi nostamaan säämittauskone ylös ja heti sen jälkeen keskitytään salamatutkalle pelkästään dedikoituun fyysiseen koneeseen.

Kiitän käyttäjiä kärsivällisyydestä näiden ongelmien kestämisestä.
Juha Jäntti
Foorumin ja sivuston ylläpitäjä
Finland Weather Exchange (FinWX)

http://www.finwx.net/
------------------------------------------
Ukkoskausi avattu Suomessa: --.--.2024
Ukkoskausi avattu Helsingissä: --.--.2024
-------------------------------------------
Ukkospäivälaskuri 2024; Helsinki/Viikinmäki
0 ukkospäivää.
------------------------------------------
X, FinWX:n ylläpidon ilmoitukset
------------------------------------------

J.Jäntti

Lisäselvittely PCI Passthrough:n poistosta ja Boltekin kortin fyysisestä irrottamisesta ESXi Serveristä paljasti toisenkin erikoisen piirteen: Poiston jälkeen toistaiseksi yhtään datasiirron viiveilmoitusta tai ns. "Unmanaged I/O workload"-ilmoitusta ei ole tullut SAN-verkon ohjaimelta, kun niitä aiemmin puski lokiin vaikka virtuaalikoneet käytännössä nukkuivat. Viiveet olivat keskimäärin satoja tuhansia mikrosekunteja (µs), mutta pahimmat olivat miljoonia mikrosekunteja (µs), joista korkein lukema oli yli 4 300 000µs, eli tarkemmin 4,3 sekuntia. Jos viive oli todellakin tuota tasoa, keskimäärin 4,3 sekunnin aikana levyjärjestelmä oli kykenemätön kommunikoimaan ESXi:n kanssa.

Näyttää vahvasti siltä, että Boltekin kortti aiheutti johonkin ESXi Serverissä olevaan ohjaimeen niin kamalan kuorman, että se vaikutti PCIe-väyläisessä Gigabitin verkkokortissa saakka. Vaikka korrelaatio tuon toimintahäiriön ja disassosiointiongelman välillä ei ole ihan suora, en kuitenkaan aio jättää sitä pois laskuista. Ihminen on onneksi oppivainen ja minä itse luonteeltani sellainen, että en tee samaa virhesiirtoa toiste. Varmaa on nyt se, että Boltekin kortti toimii huonosti ESXi serverin osana. Tämä vain tarkoittaa sitä, että Boltekin kortti tarvitsee fyysisen koneen salamatutkalle erikseen.
Juha Jäntti
Foorumin ja sivuston ylläpitäjä
Finland Weather Exchange (FinWX)

http://www.finwx.net/
------------------------------------------
Ukkoskausi avattu Suomessa: --.--.2024
Ukkoskausi avattu Helsingissä: --.--.2024
-------------------------------------------
Ukkospäivälaskuri 2024; Helsinki/Viikinmäki
0 ukkospäivää.
------------------------------------------
X, FinWX:n ylläpidon ilmoitukset
------------------------------------------