Uutiset:

03.01.2024
*** PALAUTUMISTIEDOTE ***
FinWX:n serveri-infrastruktuurille suoritettiin vuotuinen huoltoyö

Aloitusaika: 03.01.2024, 00:00
Päättymisaika: 03.01.2024, 01:15

Lue lisää suoritetusta työstä täältä.
FinWX:n ylläpito kiittää käyttäjiä kärsivällisyydestä!

Main Menu

Dedi nurin

Aloittaja weatherc, sunnuntai, 12.01.2020, 12:57

« edellinen - seuraava »

0 Jäsenet ja 1 Vieras katselee tätä aihetta.

weatherc

Tanskan maalta tuli sellaista vietiä että hänen ennuste oli lopettanut toiminnan joskus 21 jälkeen.

weatherc

Backuppi oli taas kerran juntturoinnut webbi-virtuaalin. Näyttää toimimvan jokusen viikon (nyt oli 30 päivää) kunnes failaa.
Ongelma tuossa on se miten tuota monitorois niin ettei tekisi turhaan rebootteja....

weatherc

Lainaus käyttäjältä: weatherc - sunnuntai, 12.04.2020, 12:14
Backuppi oli taas kerran juntturoinnut webbi-virtuaalin. Näyttää toimimvan jokusen viikon (nyt oli 30 päivää) kunnes failaa.
Ongelma tuossa on se miten tuota monitorois niin ettei tekisi turhaan rebootteja....

Laastari kokeiluun...
Ongelman havaitsemiseen on ongelmana se että mitä pitäisi seurata ja milloin.
Mieleen tuli backupin prosessi ja sitä kautta saada se haaviin. Joten kartta virtuaalin backuppi käyntiin ja etsimään prosessia sille, joka myös löytyi ja pikainen "preg"-pohjainen bash-komentokin jolla sain sen napattua. Tämähän vain tarkistaa sen että onko kyseinen komento käynnissä.

Sitten milloin tuo pitäisi tehdä...Proxmoxin task-logista käy ilmi että silloin kuin backuppi toimii niin se on yleisimmin valmis 05:00-06:00-välimaastossa. Näyttää vaihtelevan päivästä toiseen aika reilustikkin (menneellä viikolla nuo ajat olivat kaikkea 05:00 ja 16:30 välillä).
Tuosta voisi olettaa että jos menee paljon yli 06 niin jotain tökkii jossain ja siten voisi olla katkon paikka, joten kokeillaanpa vaikkapa 06:30...

khyron

Jos koko kone menee jumiin niin mikset vaan pingaa sitä, vaikka http-kutsu, ja jollei vastaa niin boottiin.

einari

#14
Toissayönä meni ilmeisesti jumiin heti backupin alkuvaiheessa kun data ei päivittynyt 02.00 jälkeen, joten saisiko sen buutin tarpeellisuuden sieltä puolelta nopeammin.. ettei tullisi noita 5-10 tunnin katkoja..

en tiedä mihin aikaan buuttasit  enkä muista millä kellonajalla katkoksen aikana pingasin mutta perille meni ja tracert vastasi v2.nordicweather.net.... (kuitenkin paljon ennen kuin palasi linjoille...)

weatherc

#15
Lainaus käyttäjältä: khyron - sunnuntai, 12.04.2020, 23:17
Jos koko kone menee jumiin niin mikset vaan pingaa sitä, vaikka http-kutsu, ja jollei vastaa niin boottiin.

Koska pingi ja esim ssh toimii myös silloin. Eli virtuaali toimii teoriassa ihan ok, se ei vaan saa mitään aikaseksi silloin koska IO:t tapissa.

LainaaToissayönä meni ilmeisesti jumiin heti backupin alkuvaiheessa kun data ei päivittynyt 02.00 jälkeen, joten saisiko sen buutin tarpeellisuuden sieltä puolelta nopeammin.. ettei tullisi noita 5-10 tunnin katkoja..

Backuppi aiheuttaa toimiessaan ok:kin sen että virtuaali ajoittain "on jumissa" (toimii kuitenkin ihan ok teoriassa vaikkei saa mitään aikaseksi), eli backuppia ei voi katkaista ennenkuin "sen pitäisi olla valmis". Tässä onkin juuri se ongelma tuossa ettei se mitenkään kerro että missä tilassa on.

Edellisyön webbivirtuaalin IO-käppyrä näyttää aika hyvin ongelman syyn..

EDIT:
Toinen SSD-lätyistä alkanut puskemaan Raw_Read_Error_Ratea hissukseen. En tiedä onko kauanakin sitä tehnyt koska SMART ei luokittele tuota vielä virheeksi...

  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       656152

Lifetime:han noilla molemmilla puskee failingia, poweron-tuntien ollessa toisella 31000 ja toisella 37000:

202 Percent_Lifetime_Used   0x0030   000   000   001    Old_age   Offline  FAILING_NOW 100

Tuossa koko SMART:

  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       656152
  5 Reallocate_NAND_Blk_Cnt 0x0032   100   100   010    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       31709
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       26
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 Ave_Block-Erase_Count   0x0032   001   001   000    Old_age   Always       -       8137
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       19
180 Unused_Reserve_NAND_Blk 0x0033   000   000   000    Pre-fail  Always       -       5583
183 SATA_Interfac_Downshift 0x0032   100   100   000    Old_age   Always       -       80
184 Error_Correction_Count  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   045   042   000    Old_age   Always       -       55 (Min/Max 21/58)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Percent_Lifetime_Used   0x0030   000   000   001    Old_age   Offline  FAILING_NOW 100
206 Write_Error_Rate        0x000e   100   100   000    Old_age   Always       -       0
210 Success_RAIN_Recov_Cnt  0x0032   100   100   000    Old_age   Always       -       0
246 Total_Host_Sector_Write 0x0032   100   100   000    Old_age   Always       -       233513171630
247 Host_Program_Page_Count 0x0032   100   100   000    Old_age   Always       -       7581242997
248 Bckgnd_Program_Page_Cnt 0x0032   100   100   000    Old_age   Always       -       264478846778



einari

Ehdit ensin 8)
Katselin juuri netistä mitä SSD-erroreista backupin jumeihin sanottiin.. oletuksena oli että saattaisikin juuri olla levyvirheet taustalla... saako fiksattua kuntoon vai pitääkö uusia levy/levyt..

Käytätkö jotain apuohjelmaa varmuuskopioinnissa.. pari näkyi olevan joissa mainittiin virtuaalit...

weatherc

#17
Backupit hoitaa Proxmox, eli sama softa joka hoitaa virtuaalitkin. Nyt pitää myös muistaa että käytössä oleva Proxmox-versio on vanha (4.4), tuki siihen on loppunut 2018, mutta noitahan ei myöskään suositella että päivitettäis ainakaan tyyliin 4 > 5/6, eikä varsinkaan live-purkille.

Yksi syy ongelmiin lienee myös se että nuo backupit on tallennettu suoraan Hetznerin "storage-boxiin" eli backuptilaan käyttäen CIFS:iä "liittämään" tämä tila käyttöön. Proxmoxin foorumilta löytyi postaus jossa CIFS ja muut vastaavat ovat hitaat ja epävakaat.
Syy tähän on taas - yllätys - se tuttu tilanpuute. Ei ole tilaa tehdä backuppi ensin paikallisesti jonka jälkeen uppais sen talteen muualle.

LainaaKatselin juuri netistä mitä SSD-erroreista backupin jumeihin sanottiin.. oletuksena oli että saattaisikin juuri olla levyvirheet taustalla... saako fiksattua kuntoon vai pitääkö uusia levy/levyt..

Levyt saa vaihdettua jos vaan Hetznerin supportti on samaa mieltä että ovat vaihdon tarpeessa. Levythän ovat RAID:ssa joten siinä mielessä asiat ovat hyvin. Tosin vaihto ei korjaa tilan puutetta.

weatherc

#18
Vaihto tilattu tuolle sdb-levylle joka raksuttaa Raw_Read_Error_Ratea.
Vaihto hoitunee hot-swappina josain kohtaa iltaa, eli ilman downtimea.

Mietinnässä on että mitä tuolle pitäisi tehdä pidemmän aikavälin ratkaisuna koska tuo ei ratkaise itse perusogelmaa.
Fakta on myös se että tuon käyttis/Proxmox ovat vanhoja ja kaipais kipeästi päivitystä.

EDIT: On jo vaihdettu, siihen meni kaikki 9 min siitä kun lähetin pyynnön :)


cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sdc3[3] sda3[0]
      470949888 blocks super 1.2 [2/1] [U_]
      [==>..................]  recovery = 14.3% (67484160/470949888) finish=33.6min speed=200056K/sec
      bitmap: 4/4 pages [16KB], 65536KB chunk

md1 : active raid1 sdc2[3] sda2[0]
      523712 blocks super 1.2 [2/1] [U_]
        resync=DELAYED

md0 : active raid1 sdc1[3] sda1[0]
      16760832 blocks super 1.2 [2/2] [UU]


weatherc

#19
Koe: backuppi web-virtuaalista, alkaen 3 minuuttia sitten  ;D
Ainakin äsken tehty backup kartta-virtuaalista meni ok, ja oli reilut puolet nopeampi mitä eilen (tänään 0:29, eilen 1:12)

Laastarina tuohon backuptilan cifs-mountille tuli aatoksena seuraavaa:
Viime viikkojen perusteella vaikuttaa siltä että cifsillä liitetty osoite pysyy "liitettynä" "jonkin aikaa" kunnes jossain kohtaa joku tökkii ja ainakin eilen oli koko mount-piste kadonnut.
Eli jospa
- liitetään backuptila vaikkapa 5 min ennen itse backupin alkua, sekä samalla siivotaan sieltä roskat (logit sun muut) sekä ylivanhat backupit ulos.
- tehdän backupit
- kello "06:00" irrotetaan (umount) backuptila
Näin se "liitos" olisi aina tuore.

PS. Tiesäiden uupuminen ei liity tähän, niin säät kuin kameratkin ovat hävöksissä myös Liikennevir...öö...Tmfg:n sivuilla...

EDIT: webbi-virtuaalin backuppi, 2:05 eikä missään tuntunut itse virtuaalilla....