Uutiset:

Ei uusia uutisia.

Main Menu

Epävaakata meinikiä

Aloittaja weatherc, torstai, 01.06.2017, 16:27

« edellinen - seuraava »

0 Jäsenet ja 1 Vieras katselee tätä aihetta.

weatherc

Yleisestihän sanotaan että "päivitä softa" jos homma ei toimi. Noh, aina sekään ei toimi, ja joskus tekee asian vaan pahemmaksi...Kuten nyt...
Dedin Proxmox:han tykkää rebootata itsensä vaihtelevin väliajoin ja vaikka ne sinänsä ovat aika hallinnassa niin ovat häiritseviä. Noh, uutta kernelversiota kehiin ja kohti valoa. Tai sitten ei...
Tulos oli että se alkas reboottaamaan itseänsä joka 12-20 minuutti. Ja joinakin kertoina se vaati hard-resetin Hetznerin hallintapaneelista että palas henkiin..
Nyt ollaan palattu vanhempaan kerneliin ja äsken se pysyi pystyssä "jo" 3 tuntia.

Löysin myös Proxmoxin foorumilta vastaavia tapauksia jossa se reboottailee itsensä ja yksi keino on ollut että sammuttaa kaikki watchdogit. Asia tarkistettiin Hetzneriltä ettei sellaista purkissa ole BIOS:in puolella + sammutettiin kokeeksi linukan nmi-watchdog softa-puolella.

EB:n websocketti on nurin osana tätä ja tällä hetkellä ihan tarkoituksella. Se herätetään henkiin jahka itse purkki nyt pysyis edes jokusen tunnin pystyssä ja katsotaan mitä sitten tapahtuu....

J.Jäntti

Muistelen itse törmänneeni tuohon ongelmaan omalla Proxmoxilla, mutten sillä tasolla, että se boottaisi itseään.
Kummastelin, kun virtuaalikonetta käynnistäessä Proxmoxin konsoliin tuli kummallisia herjoja juuri käynnistysvaiheessa. Googlailtuani herjoja hieman, paljastui, että jos asetat virtuaalikoneen CPU:ksi vaikkapa samaa prosessoriperhettä (esim. Intel Core i5:n (Nehalem, muistaakseni)), Proxmoxissa, joka rullaa Xeonien päällä, näitä herjoja tulee koska Proxmox ei saa samoja CPU Instructioneja irti Xeonilta, kuin mitä Nehalem tarjoaisi. Jos virtuaalikone lähtee käyntiin, se voi jumittua satunnaisesti tai jopa viedä kaataessaan Proxmoxin Kernel Paniciin tai äkki-reboottiin. Suositukseksi annettiin että virtuaalikoneita ajetaan Host -prosessorityypillä, jolloin virtuaalikoneelle esitellään Proxmoxin käyttämää prosessorityyppiä.

Sen ainakin opin suoraan, että VMware ESXi:llä voit valehdella virtuaalikoneelle päin näköä, että prosessorina on vaikka Pentium III, jos niikseen tulee, mutta sama ei onnistukaan 100% varmuudella Proxmoxilla.
Minun Proxmox on rallattanut nyt 176 päivää non-stoppina. Versio on vielä tässä vaiheessa 4.3-1.
Juha Jäntti
Foorumin ja sivuston ylläpitäjä
Finland Weather Exchange (FinWX)

http://www.finwx.net/
------------------------------------------
Ukkoskausi avattu Suomessa: --.--.2024
Ukkoskausi avattu Helsingissä: --.--.2024
-------------------------------------------
Ukkospäivälaskuri 2024; Helsinki/Viikinmäki
0 ukkospäivää.
------------------------------------------
X, FinWX:n ylläpidon ilmoitukset
------------------------------------------

weatherc

#2
Host-tyypillä minäkin ne ajan. Aluksi mulla oli se oletus mutta löysin nuo samat ohjeet siitä että kannattaa ajaa hostina.
Nyt on *kopkop* 5 tuntia uptimea ja EB:n websocketkin on herätetty henkiin.

Se mikä ainakin on tullut testattua noiden reboottien takia on se että kaikki softat käynnistyy kuten pitää automaattisesti. Kuten myös jos se lyö virtuaalin locked-tilaan backupin aikana tapahtuneen rebootin jälkeen. Hassuinta tuossa on se että rebootit tahaptuu virtuaalin 101 (web) aikana mutta virtuaali 100 (kartat, BO) menee locked-tilaan.

EDIT: Muuten Jäntti, onko sulla KVM- vai LXC-boxeja?
Mulla ne ovat KVM:iä.
Tullut mieleen että pitäis kokeilla "konvertoida" ne LXC:ksi. Tosin tuolla serverillä ei ole tilaa tehdä sitä muuta kun ehkä kartta-virtuaalille.

J.Jäntti

Lainaus käyttäjältä: weatherc - torstai, 01.06.2017, 21:47
Host-tyypillä minäkin ne ajan. Aluksi mulla oli se oletus mutta löysin nuo samat ohjeet siitä että kannattaa ajaa hostina.
Nyt on *kopkop* 5 tuntia uptimea ja EB:n websocketkin on herätetty henkiin.

Sitten on kyllä kyseessä todella erikoinen, joskaan ei ilmeisesti poikkeuksellinen juttu. Onko Proxmoxisi itsekin virtuaalialustalla (Nested virtualization) vai ihan omalla dedikoidulla raudalla?

Lainaus käyttäjältä: weatherc - torstai, 01.06.2017, 21:47
Se mikä ainakin on tullut testattua noiden reboottien takia on se että kaikki softat käynnistyy kuten pitää automaattisesti. Kuten myös jos se lyö virtuaalin locked-tilaan backupin aikana tapahtuneen rebootin jälkeen. Hassuinta tuossa on se että rebootit tahaptuu virtuaalin 101 (web) aikana mutta virtuaali 100 (kartat, BO) menee locked-tilaan.

Oletko piruuttasi kokeillut manuaalisesti ajaa tuota backupia ja katsoa, kertooko se jostain häiriöstä? Yksi tuollainen tapaus voi tapahtua, jos levyjärjestelmässä tapahtuu katkos/katkoksia. Itselläni ei tuollaista ole vielä ainakaan tapahtunut, mitä nyt että sain Proxmox-serverin Load Averaget pomppaamaan 12:n korville hetkellisesti, kun pistin kolme virtuaalikonetta tekemään Snapshotin samaan aikaan. Se puolestaan johtui siitä, että levyjärjestelmäni alkoi olemaan vähän tukossa, eikä ehtinyt purkaa 32GB:n SSD:ltä dataa magneettikiekoille riittävän nopeasti. ;D

Lainaus käyttäjältä: weatherc - torstai, 01.06.2017, 21:47
EDIT: Muuten Jäntti, onko sulla KVM- vai LXC-boxeja?
Mulla ne ovat KVM:iä.
Tullut mieleen että pitäis kokeilla "konvertoida" ne LXC:ksi. Tosin tuolla serverillä ei ole tilaa tehdä sitä muuta kun ehkä kartta-virtuaalille.

KVM:iähän ne täällä ovat kaikki. En ole testannut, olisiko LXC:ksi muuttaminen jollain tavalla parempi ratkaisu. Vanha viisaus "jos se ei ole rikki, älä (yritä) korja(t)a sitä" tuntuu pätevän, joten jos ongelmia ei ole toiminnassa, ei liene tarvetta lähteä muuttamaan järjestelmässä mitään. ;)
Juha Jäntti
Foorumin ja sivuston ylläpitäjä
Finland Weather Exchange (FinWX)

http://www.finwx.net/
------------------------------------------
Ukkoskausi avattu Suomessa: --.--.2024
Ukkoskausi avattu Helsingissä: --.--.2024
-------------------------------------------
Ukkospäivälaskuri 2024; Helsinki/Viikinmäki
0 ukkospäivää.
------------------------------------------
X, FinWX:n ylläpidon ilmoitukset
------------------------------------------

weatherc

#4
Tänään menty vaihtelevalla uptimella, 20 minuutin ja 8 tunnin haarukassa...

LainaaOnko Proxmoxisi itsekin virtuaalialustalla (Nested virtualization) vai ihan omalla dedikoidulla raudalla?

Dedikoidulla raudalla, i7-6700 ja RAMiakin on enemmän kun tarpeeksi, 64 GB.
Webbi-virtuaalilla on allokoituna 32 GB ja kartta-virtuaalilla 24 GB. Esmex jatkuvasti päivittyvät karttatiilet menvät RAMiin.

LainaaOletko piruuttasi kokeillut manuaalisesti ajaa tuota backupia ja katsoa, kertooko se jostain häiriöstä? Yksi tuollainen tapaus voi tapahtua, jos levyjärjestelmässä tapahtuu katkos/katkoksia.

Juu, backupin aikana tapahtuvat crashit taitaa johtua juuri tuosta nimittäin ne menevät suoraan Hetznerin backuptilaan siten että ennen backuppia mountaan tilan serveriin ja parin tunnin päästä jolloin backuppi on varmasti valmis umountaan sen. Tuolla tapaa säästyy se että Proxmox ensin pitäisi tallentaa backuppi serverin omalle levylle jossa sitä tilaa ei ole muutenkaan pahemmin ylimääräistä. On siinä noin 100G tyhjää mutta webbi-backuppi ei enää mahdu siihen. Toisaalta me syödään niitä SSD-lättyjä jo muutenkin ihan kivasti, SMART-arvo Percent_liftime_used tippuu ihan kivaan tahtiin, toisella levyllä 1% joka 9 päivä ja toisella 1% joka 4 päivä :P Onnex uudet kuuluvat hintaan  ;D Levyt ovat RAID1:ssä.

Nuo backupin aikaset crashit eivät sinänsä haittaa kun tietää mistä ne johtuu muuta kun tietty että siltä yöltä ei tullut backuppia ja kuhan eivät ole jokaöisiä. Oon säätänyt sen pitämään 3 backuppia jolloin ne mahtuvat hyvin sinne 500G:n backuptilaan.

LainaaKVM:iähän ne täällä ovat kaikki. En ole testannut, olisiko LXC:ksi muuttaminen jollain tavalla parempi ratkaisu. Vanha viisaus "jos se ei ole rikki, älä (yritä) korja(t)a sitä" tuntuu pätevän, joten jos ongelmia ei ole toiminnassa, ei liene tarvetta lähteä muuttamaan järjestelmässä mitään.

Totta. Tuossa vaan tullut mieleen että voisko se olla se syy.

Yks asia joka pistänyt silmään on se että cpu-taajuudet eivät ole ihan samat. Intel_pstaten performance-governoori laittaa ne tyyliin
cpu MHz         : 3391.898
cpu MHz         : 3382.867
cpu MHz         : 3392.562
cpu MHz         : 3311.281
cpu MHz         : 3396.546
cpu MHz         : 3400.000
cpu MHz         : 3354.710
cpu MHz         : 3400.000
Kun tuota Proxmoxin foorumia selailee niin vastaan tulee jatkuvasti se että kaikki säästö-asetukset ja dynaamiset cpu-jutut pitää laittaa offille. Kokeilin piruttain disabloida tuo intel_pstate. Silloin oli kaikki cpu:t 3400 Mhz:ssä mutta se ei pysynyt pystyssä kun alle 10 minuuttia.
Nyt on kokeilussa että Intelin turbo-boosti on disabloituna ja tällä hetkellä on 3h uptimea.

weatherc

9 tuntia uptimea itse palvelimella.
Muutama löytö ja muutos tehty:

- Webbi-virtuaalin levy-ajuri oli IDE kun taas kartta-virtuaalin on Virtio. Foorumilta kävi ilmi että Virtio parempi joten tein vaihdon.
- Webbi-virtuaali kirjoittaa levylle tahtiin 2G/h. Lukema on aika lailla vakaa tunnista toiseen. Suurin kirjoittaja on Mysql mikä ei sinänsä ole yllätys. Pitäisi vaan keskiä keino miten saisi selville eniten kirjoittavat mysql-kyselyt/skriptit jotta voisi tarkistaa ne ja tehdä tarvittaessa muutoksia.
- Myslin conffiin tehty pikkasen muutoksia jotta RAM-käyttö parantuisi.
- Yksi suht iso yksittäinen lienee ne 5 x MyBlitzotung:a jota dedillä raksuttaa. Ongelma on vaan se että ne tallentaa myös tiedot "omista iskuista" joka mutkistaa jo idean siitä että olisi 1 keskeinen MyBo-tietokanta kaikille.
- Toinen iso on tietty EWN. Tuning-primer antoi qps-lukemaksi 66 kun EWN:än PWS-asemat oli disabloituna Mysqlin käynnistyksestä lukeman ottoon. Enabloituna on lukema noussut 85:een.

weatherc

Hassu havainto jonka tehnyt viimeisen parin päivän aikana on että rebootit tapahtuu eninmäärin aamuisin/aamupäivisin. Nyttenkin menty 12h putkeen sitten klo 12:25 mutta aamulla oli lyhyin pätkä kokonaiset 11 minuuttia ja loputkin olivat 1-3h haarukassa. Eilen mentiin myös yhtä putkeen koko ilta aina backuppiin asti klo 04:35.

Yrityksessä debuggata pikkasen tuota Mysqliä ja koittaa saada selville mikä hakkaa sitä eniten niin ovat EWN:än PWS-, FMI-, SMHI-, YR- sekä tiesääasemat pois pelistä huomiseen aamupäivään asti. Tänään menty noin 100 qps:ssä kun kaikki ovat olleet päällä (bo_updatet hiljasemmalla tahdilla kun normisti). Katkolla haluan selvittä mikä on noitten osuus tuosta sadasta.

weatherc

#7
Lainaus käyttäjältä: weatherc - tiistai, 06.06.2017, 00:25
Yrityksessä debuggata pikkasen tuota Mysqliä ja koittaa saada selville mikä hakkaa sitä eniten niin ovat EWN:än PWS-, FMI-, SMHI-, YR- sekä tiesääasemat pois pelistä huomiseen aamupäivään asti. Tänään menty noin 100 qps:ssä kun kaikki ovat olleet päällä (bo_updatet hiljasemmalla tahdilla kun normisti). Katkolla haluan selvittä mikä on noitten osuus tuosta sadasta.

Katkon tulos: Purkki pysyi linjoilla 26 tuntia putkeen. Myös yöllinen backuppi meni OK.
Mysqlin qps-lukema tippui 100:sta 40:iin.
Sattuneesta syystä nuo enabloidaan vasta kun ne on käyty läpi ja keksitty ratkaisu.
Tässä käyneen niin että FMI- ja tiesääasemat palaavat ensin koska ne ovat simppelimmät. Tuo PWS-häkkyrä kun ei ole mikään kovin simppeli....

weatherc

Päivitystä tähän mystisyyteen...

Katkot näyttää tapahtuvan aamupainoitesti, edellinenkin oli 07:45. Uptimet vaihtelee 3 ja 26 tunnin välillä, edellinen oli 24.5h.
Haittaava puoli noissa rebooteissa on se että esim kaikki Memcachehen menneet mysql-queryt noolaantuu ja aloitetaan alusta niiden kerääminen, varsinkin Geoname-kyselyt kun hyötyis siitä.

Löysin myös Myslistä "general_log":in jonka saa enabloitua joka kerää jokikisen queryn logiin. 15 minuuttia ja logissa oli 20K riviä :P
Tosin jokainen connect, close ja select_db:kin menee sinne joten ihan kaikki 20K eivät ole oikeita queryjä. Sieltä löytyi vaikka mitä mielenkiintoista. Kuten että cPanelin CpHulk on aikamoinen raksuttaja.

MyBlitzortung lienee syytön. Se dumppaa kaikki uudet iskut yhdellä isolla kyselyllä.

EWN kerää taas PWS-dataa sen jälkeen kun muokkasin hakuhäkkyröitä käyttämään mysqli_multi_query:ä jossa kaikki UPDATE:t ajetaan kerralla.
Toplista on vielä nurin koska se odottaa samaa muokkausta, samoin näyttää jotkut päivittäiset max/min-arvot mitä sattuu koska päivittäinen nollaus ei toimi.

Jokatapauksessa on sekä myslin hakkaaminen sekä webbi-virtuaalin levykirjoittaminen vähentynyt aika radikaalisesti.
Mysliä hakattiin ennen noin 120 qps, nyt 35 qps.
Levyä kirjotettiin ennen 2G/h, nyt 1.25G/h.

;D

khyron

General logia varten löytyy muuten analysaattoreita esim sen suhteen tuleeko samoja kyselyitä paljon. Sit jostain asetuksista saa päälle pitkään kestävien kyselyiden loggaamisen, enny muista asetusta mut google varmaan kertoo.