Joku joka ymmärtää paremmin kun meikäläinen tuon smartctl-softan ulosannista jotain, mitä tuo seuraava kertoo?
Mulle ainakin sen että Reallocated_Sector_Ct, Current_Pending_Sector, ATA Error Count eivät ole ihan kuten pitäisi.....
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED
WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 102 089 006 Pre-fail Always - 243646751
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 17
5 Reallocated_Sector_Ct 0x0033 095 095 036 Pre-fail Always - 7864
7 Seek_Error_Rate 0x000f 089 060 030 Pre-fail Always - 806218850
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 6290
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 4111
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 4295032833
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 064 060 045 Old_age Always - 36 (Min/Max 30/40)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 15
193 Load_Cycle_Count 0x0032 098 098 000 Old_age Always - 5243
194 Temperature_Celsius 0x0022 036 040 000 Old_age Always - 36 (0 20 0 0 0)
197 Current_Pending_Sector 0x0012 097 001 000 Old_age Always - 520
198 Offline_Uncorrectable 0x0010 097 001 000 Old_age Offline - 520
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 98973226375082
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 91794627828115
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 151900621027406
SMART Error Log Version: 1
ATA Error Count: 8178 (device log contains only the most recent five errors)
Lainaus käyttäjältä: weatherc - torstai, 25.04.2013, 15:37
Joku joka ymmärtää paremmin kun meikäläinen tuon smartctl-softan ulosannista jotain, mitä tuo seuraava kertoo?
Mulle ainakin sen että Reallocated_Sector_Ct, Current_Pending_Sector, ATA Error Count eivät ole ihan kuten pitäisi.....
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED
WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 102 089 006 Pre-fail Always - 243646751
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 17
5 Reallocated_Sector_Ct 0x0033 095 095 036 Pre-fail Always - 7864
7 Seek_Error_Rate 0x000f 089 060 030 Pre-fail Always - 806218850
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 6290
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 4111
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 4295032833
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 064 060 045 Old_age Always - 36 (Min/Max 30/40)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 15
193 Load_Cycle_Count 0x0032 098 098 000 Old_age Always - 5243
194 Temperature_Celsius 0x0022 036 040 000 Old_age Always - 36 (0 20 0 0 0)
197 Current_Pending_Sector 0x0012 097 001 000 Old_age Always - 520
198 Offline_Uncorrectable 0x0010 097 001 000 Old_age Offline - 520
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 98973226375082
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 91794627828115
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 151900621027406
SMART Error Log Version: 1
ATA Error Count: 8178 (device log contains only the most recent five errors)
En mie tuosta muuta ymmärrä kuin sen että erroria pukkaa aika reippaanlaisesti. Eli olisko niin että kovo on aika pirstaleina. Haut ei onnistu josta timeoutit ja read errorit. Sitten iso ??? perään.
Kysäsin Hetznerin supportilta ja downtimea pukkaa heti kun lukevat vastauksen jotta voivat tsekata kovot.
Downtimen pituus "20 min" (jos se käynnistyy uudelleen....)
On vaan siinä vaiheessa toinen kerta vuoden sisään kun H:n kovot hajoavat, pirun consument-grade Barracuda-p*kat...
Mulle tuo kertos Googlen avulla että Bad_sectoria on aivan tolkuttomasti....
Nuo haku ja kirjoitus-luvut ovat Googlen mukaan Barracudoissa ihan utopiaa eikä niihin kannattane luottaa...
Dead!
Molemmat kovot kaputt.
Ainut pihaus mitä saa on rescue-modessa.
Noin, nyt tehty pikkasen uppauksia backup-tilaan.
Nyt on kysymys mitä tehdä noille susille Barracudoille koska tämä on toinen kerta vuoden sisään kun levyt pamahtaa, niin,
- Hetznerillä täysin sudet levyt
- Dedin setuppi ei sovellu consument-grade levylle (mm realtime-ftp:t syö i/o:ta reilusti).
Kysäsin ideoita Hetznerin supportilta. Vastaukset olivat kuten arvasin, liki suoraan roskakoriin menevät:
- Vaihtaa kovot "enterprice-luokkaan" => 65€/kk lisämaksua
- Vaihtaa EX6-purkkiin jossa nuo enterprice-kovot + EEC-RAM => hintava
SSD-levy kustantaa aika uskomattomat 30€/kk hetznerillä, 15€ itse levystä mutta se vaatii myös hetin pirun Flexi-packin, 15€.
Jotenkin kyrsii nyt tuo consument-grade-romu siihen malliin että tutkinnassa on Webtropia.de, jossa olisi mm. HP:n purkkeja.
Kunnes olen päättänyt mitä teen ei dedille tapahdu mitään, päätös tulee kyllä vielä tänään, sitä kun ei kuitenkaan ylös saada enään tämän päivä puolella niin parempi nyt ottaa hetken-parin mietintätauko ettei ala kyserimään jälkikäteen...
// Henkka
Päivitystä...
3GB/s Barracudojen tilalle tuli tuliterät 6GB/s 7200 pm Toshibat....
Mitkäköhän levyt mulla on tuolla Hetznerillä? :)
LainaaMitkäköhän levyt mulla on tuolla Hetznerillä?
Voit tarkistaa SSH:lla:
smartctl -a /dev/sda ja smartctl -a /dev/sdb :)
Dedi..
Cpanel koittaa asentaa itsensä....
Mennee huomiseen että saan sivut linjoille backupeista...
Sivut ovat takaisin linjoilla. Tarkistakaa että FTP uppaa OK....
Lyhyitä katkoksia tullee esiintymään vielä, mm. reboottia pukkaa jolla testataan että pulikat käynnistyy myös bootin jälkeen....
Näyttäis pelittävän. Näytteli ensin jotain vanhoja lukuja, mutta päivittyy sekä suoraan että esimerkiksi lumimäärä. Olikin jo tyhjä olotila, kun ei saanut tarkistaa Suomen säätilannetta sivuiltasi. Onnea jatkoon! Laita jäsenmaksu osakkaille, jos teuhka käy vähäksi. ;)
Juu, EWN pelittää taas (paitsi synop/metar-data).
Ennuste-kartat eivät koska tässä vaiheessa ei ole yhtään noista kartta-softista asennettu vielä.
Pitkän-ajan ratkaisuksi pitää kyllä keksiä jotain koska nuo normi veivattavat kovot eivät selvästi kestä kun tämä oli toinen kerta vuoden sisään kun hajoavat ja tämä vaikka ajoin esim ennuste-karttojen tiilet RAM-diskillä. :P
Sadetutka takaisin linjoilla ;D
Toistaiseksi päivittyy 6 minuutin viiveellä kunnes saan testin tiff-filusta kehiin...
Lainaus käyttäjältä: weatherc - torstai, 25.04.2013, 15:37
Mulle ainakin sen että Reallocated_Sector_Ct, Current_Pending_Sector, ATA Error Count eivät ole ihan kuten pitäisi.....
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED
WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 102 089 006 Pre-fail Always - 243646751
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 17
5 Reallocated_Sector_Ct 0x0033 095 095 036 Pre-fail Always - 7864
7 Seek_Error_Rate 0x000f 089 060 030 Pre-fail Always - 806218850
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 6290
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 17
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 4111
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 4295032833
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 064 060 045 Old_age Always - 36 (Min/Max 30/40)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 15
193 Load_Cycle_Count 0x0032 098 098 000 Old_age Always - 5243
194 Temperature_Celsius 0x0022 036 040 000 Old_age Always - 36 (0 20 0 0 0)
197 Current_Pending_Sector 0x0012 097 001 000 Old_age Always - 520
198 Offline_Uncorrectable 0x0010 097 001 000 Old_age Offline - 520
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 98973226375082
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 91794627828115
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 151900621027406
SMART Error Log Version: 1
ATA Error Count: 8178 (device log contains only the most recent five errors)
Juu, ei näytä yhtään hyvältä nuo lukemat.
- Reallocated Sector Count on sellainen, ettei lukeman pitäisi olla missään tapauksessa lähes 8000, vaan nolla. Jos tuo lukema lähtee nousemaan, se tarkoittaa, että levyllä olleet sektorit ovat olleet luku-, kirjoitus- tai tarkistustilanteessa käyttökelvottomia, jolloin sen sektorin sisältö siirretään levyllä olevalle vara-alueelle (joita on myös rajoitetusti).
- Spin Retry Count on nolla, joten levyn spinneri on kunnossa (vissiin ainoa osa, joka tuossa on toiminut odotetusti. Toisaalta eipä esimerkkinä käytetty levy ole 17 kertaa enempää käynnistetty.
- End to End Retry Count on niin ikään nollassa. Tämä tarkoittaa sitä, että levyssä välimuisti on kunnossa.
- Command Timeout-lukema on kaukana nollasta, mikä on huolestuttavaa. Tämä lukema kertoo, kuinka monta kiintolevylle lähtenyttä komentoa on jouduttu keskeyttämään, koska kiintolevyltä ei ole tullut kuittausta. On mahdollista, että dedin virtalähteessä tai datakaapelissa on jotain häikkää.
- Current Pending Sector Count kertoo sen, kuinka monta sektoria levyllä on ns. jonottamassa siirtoa vara-alueelle. Lukumäärä on sen takia ongelmallinen, että kun siirto vara-alueelle tapahtuu, lukema putoaa. Nolla on joka tapauksessa tuolle oikea lukema.
- Offline Uncorrectable-lukema kertoo siitä, kuinka monta sektoria on merkattu lopullisesti luku/kirjoituskelvottomaksi levyn pinnalla. Se on indikaattori siitä, missä kunnossa levyn magneettipinta on. Nolla on oikea lukema tässäkin kohtaa.
Total LBAs Written- ja -Read-arvot ovat huikeat, mikä serverillä nyt on odotettavissakin, etenkin tietokantakäytössä. Se ei kuitenkaan ole puolustus: Levyn tulee kestää tuollaista käyttöä, vaikka olisikin kuluttajatason laite.
Ilmeisesti Hetznerin on jollain tavalla pidettävä kulut kurissa, sillä heillä tuskin on tahtoa hommata VelociRaptoreita tuonne sirittämään. Odottaisi tosin, että heilläkin on jonkinlainen seuranta, että jos levyn attribuutit alkavat näyttämään pahalta, siitä tulee hälytys. Näin ei näytä olevan, kun kerran EWN rojahti kyykkyyn.
Onneksi sait sen kuitenkin ylös, mutta homma ei mennyt ilman lieveilmiöitä, kun osa sisällöstä on pois pelistä.
LainaaIlmeisesti Hetznerin on jollain tavalla pidettävä kulut kurissa, sillä heillä tuskin on tahtoa hommata VelociRaptoreita tuonne sirittämään. Odottaisi tosin, että heilläkin on jonkinlainen seuranta, että jos levyn attribuutit alkavat näyttämään pahalta, siitä tulee hälytys. Näin ei näytä olevan, kun kerran EWN rojahti kyykkyyn.
Unmanaged purkilla, niin Hetznerillä kuin muillakin tarkoittaa käytännössäkin juuri sitä mitä tuo sanakin, eli mitään varsinaista valvontaa purkin tilasta ei talon puolesta ole. Ainut jota valvovat, täysin ymmärrettävästi, on verkkoa DDosien ja vastaavien varalta mutta itse DDos-turvan asiakkaan on itse hommattava jos sellaista haluaa ja lompakko sen kestää.
Mielenkiintoista tässä on se että se smartctl-pikatesti jota myös hallintapneeli cPanel vissiin tekee vähintään kerran päivässä väitti "PASSED" eli OK. Silti rebootti Hetznerin testin jälkeen lyssähti alkuunsa I/O-erroreiden kera.
Kun päästiin Hetznerin rescue-modeen ja mountattiin levy niin osa kansioista oli kadonnut, onneksi ei kaikki vaan suurimmasta osasta sain kuitenkin otettua freshit backupit sekä varmistettua että edellisen yön cPanel-backupit todellakin löytyi backuptilasta.
Kartta-systeemit ovat vain niin pirun isot kooltaan etteivät tuohon backup-tilaan mahdu joten esim. OSM-tietokanta lähti taivaan tuuliin.
Toinen pikku miinus oli tietty se että esim. FMI-sadetutkasysteemit olivat niin uudet etten ollut kerennyt tehdä niistä backuppia vielä :P
WRF on palaamassa linjoille, ensimmäinen testisatsi 4:llä layerillä kehissä, se ei päivity vielä :)
Aivan sattumalta oli yksi saksalainen joka pyörittää saksalaista ennustesivustoa yhteydessä viikko sitten ja pienen keskustelun jälkeen tultiin tulokseen että laitetaan WRF omalle purkille. Näinollen en edes yrittänyt korjata sitä saatikka asentaa sitä uudelleen kovalevyjen hajottua.
Resoluutio sekä aikahaarukka pysynee suunnilleen samana kun ennenkin.