TCL 2022 TCL 2022 TCL 2022

Ukladanie dát na pole RAID

0

Podnetom na vznik tohto článku boli rozhovory s ľuďmi, ktorým boli zachránené dáta vo firme zameranej na túto činnosť. Ak zlyhá pamäťové médium a hrozí strata dát, vznikne veľmi stresujúca situácia. Po takejto skúsenosti sa majiteľ dát začne dosť intenzívne zaujímať o to, ako sa podobnej situácii v budúcnosti vyhnúť. Skúsenosť potvrdzuje, že kým nedôjde k strate dát, tomuto problému sa venuje len okrajová pozornosť, hoci často na jednom serveri „visí“ cela firma. Stále možno stretnúť ľudí, ktorí sú presvedčení, že ak si nakopírujú svoje dáta na druhú partíciu toho istého disku, na ktorom je aj zdroj dát, urobili si zálohu.

V texte sa zameriame na niektoré riziká pri používaní polí RAID. Pod dostupnosťou dát sa bude rozumieť možnosť čítať a zapisovať na pamäťové médium a pod diskom sa bude chápať klasický elektromechanický disk, ktorý sa zatiaľ najviac používa. Tento disk je veľmi citlivý na pracovné podmienky, zvlášť na otrasy a rázy. Doba životnosti by mala byť pri nepretržitej prevádzke niekoľko rokov. Napríklad prevádzkovateľ veľkých dátových centier uviedol údaj, že na základe výmeny problémových diskov mu vychádza, že po piatich rokoch treba vymeniť polovicu diskov nasadených v danom období. Niektoré série diskov sú viac poruchové, ale nemožno generálnym spôsobom odporúčať konkrétneho výrobcu. Vydarené a aj zlé modely majú na svojom konte všetci výrobcovia. V praxi sa osvedčili disky predĺženou zárukou. Pracovná teplota disku by mala zostať medzi 15 °C a 45 °C. Údaj je orientačný a závisí od metodiky testov, takže sa môžete stretnúť aj s rozsahom, ktorý sa líši o 5 až 10 °C.

Smart kontrola by mala znížiť príkon alebo vypnúť disk, ak teplota dosiahne 65 °C. Horná hranica môže budiť dojem, že vyššie teploty disku neškodia. Máme však overenú skúsenosť, že po letnom období je poruchovosť diskov vždy vyššia.

Predpokladáme, že čitateľ pozná základné rozdiely medzi R0 (RAID 0), R1, R5 a R6. V texte sa sústredíme na R1 a R5. Vďaka osvete používatelia nezvyknú voliť R0 a málo rozšírená je aj konfigurácia JBOD. Možno to trochu súvisí aj s tým, že ak treba zálohovať menšie množstvo dát, možno použiť externý box s jedným diskom. Na väčšie objemy je určené komplexnejšie riešenie s tromi a viac diskami, nakonfigurovanými do poľa RAID. Servery majú pri predpoklade, že sa bude používať RAID, spravidla úložisko dimenzované na najmenej štyri disky.

Podľa našich skúseností je R5 zatiaľ najrozšírenejší typ RAID a bežne sa stretávame s názorom, že je to spoľahlivý spôsob uloženia dát. Polia RAID s výnimkou R1 (a jeho variantov) neboli navrhnuté preto, aby sa zvýšila spoľahlivosť uloženia dát v porovnaní s pamäťovým médiom, ktoré nie je zložené z menších jednotiek . RAID je riešenie, ktoré umožňuje, aby sa z diskov s malou kapacitou dalo vyčariť pamäťové médium, ktoré sa tvári ako jedno veľké úložisko. Počas prevádzky pre používateľa pritom ponúka komfort, na ktorý bol zvyknutý pri používaní jedného disku. Čím viac diskov je v poli zapojených, tým vyššia je pravdepodobnosť výpadku jedného z nich. Paritné bloky pri R5 a R6, ktoré slúžia na rekonštrukciu pôvodného stavu po výpadku člena poľa, sú kompenzáciou toho, že úložisko RAID je vyskladané z väčšieho množstva diskov. Čiže paritný blok nepredstavuje niečo navyše, čo lepšie zabezpečí uložené dáta.

RAID sa dá prevádzkovať buď prostredníctvom softvéru spusteného na úrovni operačného systému, alebo sa disky pripájajú na hardvérový radič, ktorý cez ovládač komunikuje s operačným systémom a ponúkne disky ako jednoliate médium (alebo niekoľko médií). Bežné domáce počítače majú radič RAID často integrovaný na základnej doske. Výkonnejšie platformy ho majú ako samostatnú kartu. K znefunkčneniu poľa RAID pre poškodenie radiča dochádza veľmi zriedkavo. Aj pri výpadkoch napätia (či už spôsobených zdrojom napájajúcim RAID, alebo v dôsledku výpadkov elektrickej siete) si to spravidla odnesú disky, a nie radič.

Radiče ponúkajú aj možnosť pripojenia záložných diskov. Pri výpadku jedného disku v poli radič miesto neho pripojí jeden zo záložných diskov. Spustí sa rebuild, ktorý z paritných blokov doplní dáta na novo pripojený disk. Používateľ by okrem prechodného poklesu výkonu nemal takmer zbadať, že sa s dátami niečo deje. Záložné disky budia dojem, že ide prvok zlepšujúci spoľahlivosť uloženia dát na RAID-e. Úspešnosť tohto procesu je však podmienená predpokladom, ktorý za reálnych okolností vôbec nemusí byť splnený.

Zatiaľ som v dokumentácii radiča alebo servera ponúkajúceho RAID nenašiel upozornenie na niektoré riziká spojené s pripojením záložného disku a následným spustením rebuildu. Úspešný rebuild predpokladá, že problém nenastane u ďalšieho člena poľa, že všetky ostatné disky sú v poriadku. Je tento predpoklad naozaj splnený? Pri vytvorení poľa sa spravidla používajú disky rovnakého modelu (t. j. od rovnakého výrobcu s rovnakými parametrami), a keďže sa obyčajne obstarávajú naraz, sú vyrobené v pomerne úzkom časovom období. Disky sa prevádzkujú v rovnakom prostredí s identickou záťažou. Ich krivka životnosti a spoľahlivosti je teda dosť podobná. Ak dôjde v poli k výpadku disku, existuje pravdepodobnosť, že k podobnému stavu sa môžu priblížiť aj ďalšie disky z poľa. Počas obnovy údajov z rôznych polí sa bežne stretávame s tým, že ak sa analyzuje stav diskov, veľmi často má problém viac ako jeden disk. Niekedy v rôznom rozsahu aj všetky členy poľa. Ak čierny scenár pre R5 máličko dotiahneme, môže dôjsť (a aj dochádza) k prípadom, že radič pri problémoch s niektorým diskom ho odpojí, pripojí záložný a spustí rebuild, ktorý zhavaruje na ďalšom chybnom disku poľa. Výsledok je taký, že máme dva disky, ktoré indikujú problém, nedokončený rebuild a používateľa blízko infarktu. Nezatracujem ani záložné disky, ani rebuild, len upozorňujem, že sú to čiastočné riešenia, ktoré sú funkčné len do určitej miery a nezaručia dostupnosť dát, aj keď bol na začiatku problém len s jedným diskom.

Ďalší typ scenára pri veľmi často používanom R5, ale bez záložných diskov je postupný výpadok dvoch diskov. Ak v RAID-e jeden z diskov prestane byť funkčný, pole prejde do degradovaného stavu, dáta sú dostupné. Používateľ výpadok disku nemusí zaregistrovať, prípadne aj registruje, ale administrátor pre momentálnu zaneprázdnenosť problém nerieši. Stretávame sa s tým, že momentálna zaneprázdnenosť vyťaženého administrátora niekedy trvá niekoľko (aj dosť veľa) dní, ba i týždňov. Keď si tento typ časovanej bomby doráta svoj limit, vypadne ďalší disk. Pole padne a dáta nie sú prístupné. Situáciu zhoršuje potom fakt, že pri radičoch, ktoré nerobia prevádzkový záznam o poruchách, sa nedá  priamo určiť, ktorý disk vypadol posledný, teda na ktorom je posledný aktuálny stav.

Interval na výpadok ďalšieho disku môže byť oveľa kratší ako dni a týždne, niekedy stačí aj pár hodín zvýšenej záťaže a problémový disk môže dodýchať. Až pri poruche RAID-u používateľ zistí, aký kvalitný radič si zaobstaral. Napríklad je veľmi dobré, ak radič robí kvalitný prevádzkový záznam (log) o všetkých zmenách. ktorými RAID prešiel. Ak sú problémy s RAID-om a dátami, je dôležitý nielen okamžitý stav poľa, ale veľmi cenné a dôležité sú informácie, ako k danému stavu došlo a čo mu predchádzalo. Väčšinou sú tieto záznamy, ak vôbec existujú, veľmi sparťanské.

Niektoré radiče ukladajú konfiguráciu o poli na jednotlivé disky a sú radiče, ktoré si konfiguráciu poľa ukladajú do svojej internej pamäte. Výhoda ukladania konfiguračných údajov na disk je v tom, že ak sa urobí záloha disku (imidž), je to vrátane konfigurácie poľa pre daný disk.

Niektoré zlyhania RAID idú na vrub výpadkov napájania alebo aj štandardného vypnutia/zapnutia zdroja. Tá druhá možnosť sa týka diskov, ktoré bežali nepretržite niekoľko rokov bez akýchkoľvek problémov. Po zapnutí sa môžu zviditeľniť chyby v dôsledku zvýšenej záťaže pri nábehu

Pri väčšine radičov, s ktorými sme prišli do kontaktu, v konfiguračnom softvéri radiča chýbala funkcia, ktorá by tam mohla byť. Je to opätovné pripojenie odpojeného disku bez rebuildu tak, aby sa pole dostalo do pôvodnej, východiskovej konfigurácie. Poviete si: Pripájať k radiču už raz odpojený, teda zlý disk? Na pripojenie disku sa, samozrejme, nepoužíva originál, ale jeho kópia. Takéto opätovné pripojenie by napr. veľmi pomohlo, ak je problém s kontaktom. Mali sme prípad, že doniesli na obnovu pole, ktoré bolo v nefunkčnom stave. Administrátor pri údržbe vypol server s RAID-om. Súčasťou údržby bolo aj vyčistenie od prachu. Po vyčistení vytiahnuté disky z poľa RAID zasunul nazad, ale po zapnutí radič hlásil, že niektoré disky nie sú pripojené, a pole zostalo nefunkčné. Analýza ukázala, že disky boli v poriadku a pravdepodobne pre kontakt radič disky odpojil.

Opätovné pripojenie odpojeného disku (jeho kópie) je možno diskutabilná funkcia ale v rukách zodpovedného administrátora by v niektorých prípadoch veľmi zjednodušila a uľahčila riešenie problémov s diskami, ktoré radič odpojil. Okrem problémov s kontaktom ide hlavne o situácie, ak pole padne a neexistuje žiadna záloha. Keby sa pole dalo sprístupniť týmto spôsobom, bola by šanca v prvom kroku „vydolovať“ aspoň to najnevyhnutnejšie.

Rebuild je „čisté“ riešenie, pretože ak odpojený disk mal problém s čítaním na niektorých častiach povrchu a nový disk pripojíme cez rebuild, máme istotu, že dáta budú v pôvodnom stave. Výrobcovia sa snažia donútiť majiteľa RAID-u, aby disk, ktorý radič raz odpojil a potenciálne nemusí byť v poriadku, bol v každom prípade vymenený a pole bolo vrátené do pôvodného stavu pomocou rebuildu z paritných blokov.

Rebuild môže bežať niekoľko hodín až desiatok hodín. Po neúspešnom rebuilde sa stav môže aj podstatným spôsobom zhoršiť. To je naša skúsenosť s poľami, ktoré absolvovali neúspešný rebuild a prídu na obnovu. Výťažnosť dát je horšia a prácnosť vynaložená na získanie dát je väčšia. Dokonca sa stáva, že ak prvý rebuild alebo nejaký servisný zásah nedopadne dobre, majiteľ dát to skúša opakovane, pričom sú to často kroky, ktoré sú nevratné. Treba zdôrazniť, že každá manipulácia s poľom môže urobiť také zmeny, ktoré môžu zásadným spôsobom ovplyvniť použiteľnosť dát. Podobne môžu fungovať rôzne opravné programy. Ak niekto plánuje urobiť nejaký servisný zásah na degradovanom poli, čiže pokiaľ sú dáta ešte dostupné, nech najskôr zazálohuje najpotrebnejšie aktuálne dáta. V porovnaní napr. so spusteným rebuildom, ktorý zastane niekde na polceste, je to využitá možnosť, ako zabrániť najhoršiemu. Dokonca sme sa stretli aj s tým, že rebuild bol spustený na disk, ktorý radič predtým indikoval ako problémový. V každom prípade to nie je dobrý nápad.

 Ak je záloha dát k dispozícii, treba ju najskôr sprevádzkovať a POTOM riešiť problémové pole. Naozaj sa treba presvedčiť, či záloha, ktorá existuje, je v poriadku. Mali sme napr. takýto kuriózny prípad: Firma nasadila server, na ktorom mala centrálne uložené dáta na poli RAID. Dáta sa v pravidelných časových intervaloch zálohovali ešte na jedno úložisko. Pri spúšťaní systému si proces zálohovania overovali testovaním na súprave skúšobných súborov. Všetko sa správalo pri testoch korektne. Systém dosť dlhý čas používali a potom došlo k výpadku poľa. Pretože sa oprávnene domnievali, že majú zálohu dát na inom mieste, nebol výpadok poľa zatiaľ zásadný problém. Ukázalo sa však, že zálohy, ktoré systém robil niekoľko rokov, boli zálohy tej skúšobnej súpravy súborov, ktorú použili na testovanie pri nasadzovaní servera. Nedopatrením po spustení ostrej prevádzky nezmenili zdroj zálohovania na reálne firemné dáta. Záloha neexistovala a musela sa robiť obnova dát zo zhavarovaného poľa. Podobné príhody sa v istých obmenách vyskytujú pomerne často.

S podobnými problémami ako pri R5 sa stretávame aj pri zatiaľ menej rozšírenom variante R5E a R6. Sú z hľadiska rozšírenej parity odolnejšie, ale stáva sa aj to, že dáta, ktoré sú na nich uložené, nie sú po havárii prístupné. Napríklad aj pri R6 stačí, ak vypadne jeden disk a vykoná sa neúspešný rebuild, a môžete sa dostať do stavu, že dáta (alebo ich časť) nie sú prístupné. Ak teda máte aj vyšší RAID ako R5 a vypadne vám len jeden disk, radšej rebuild spustite až po overení alebo urobení zálohy.

Mirror (a jeho varianty) patrí z hľadiska spoľahlivosti RAID-ov na najhornejšiu priečku. Používa sa oveľa menej ako R5. Mali sme však aj zopár prípadov, keď zhavaroval mirror. Príčinou boli výpadky napájacieho napätia. Disky zacvičili takým spôsobom, že došlo k

zneprístupneniu dát a bola potrebná obnova. V porovnaní s množstvom výpadkov R5 je to zanedbateľný počet prípadov. Ak máte menší objem veľmi dôležitých dát, určite zvoľte R1. Ešte lepšie riešenie je pravidelná záloha dát na fyzicky iné úložisko.

(Poznámka: Na úplnosť treba uviesť, že toto hodnotenie počtu prípadov zlyhaní je subjektívne a odvíja sa od štruktúry prípadov, ktoré boli riešené. Napriek tomu má určitú výpovednú hodnotu o tom, čo používatelia preferujú a ako sa dané riešenia z hľadiska spoľahlivosti v praxi prejavujú.)

Pri ukladaní dát možno pridať na RAID ďalšiu logickú vrstvu, a to virtuálne disky. Tu skôr platí, že menej je niekedy viac. Virtuálny disk je v podstate pár konfiguračných záznamov na pamäťovom médiu, ako má softvér čítať bloky dát, ktoré tvoria virtuálny disk. Ak aj na tejto úrovni dôjde k poškodeniu alebo zlyhaniu, máte o problém viac. Obyčajne sa v manuáloch o virtuálnych diskoch dá dočítať o výhodách, ktoré ponúkajú. Pokiaľ sa niekto nechá zlákať potenciálnymi výhodami, ale vcelku nehrozí, že ich NAOZAJ bude MUSIEŤ používať,

môže si vyrobiť zbytočnú stratu alebo poškodenie dát aj na tejto úrovni. Vyskytli sa prípady, keď si používateľ vyrobil virtuálny disk, hoci mu to z hľadiska funkčnosti a komfortu používania dátového úložiska neprinieslo nijakú pridanú hodnotu. Na otázku, prečo to nakonfiguroval týmto spôsobom, sme dostali odpoveď v tom duchu, že si to urobil preto, lebo systém mu to umožňoval a on chcel mať aj virtuálny disk.

NAS

Polia RAID sa rozšírili aj vďaka boxom NAS (Network Attached Storage). A nielen polia RAID, ale touto nepriamou formou sa začal vo väčšej miere používať aj operačný systém Linux. Základný koncept boxov NAS je veľmi podobný, či už ide o veľké úložisko na firemné použitie, alebo o niečo menšie pre domáceho používateľa. Veľké úložiská majú komplexnejšiu ponuku v konfigurácii poľa, v konektivite a možnostiach administrácie, čo sa, samozrejme, premieta do ceny. Menšie boxy, ktoré sú určené na ukladanie dát pre väčšinu bežných používateľov, majú tri alebo štyri pozície na pevné disky. Výrobcovia diskov ponúkajú modelové rady diskov prednostne určených pre tento typ zariadení s kapacitami rádovo v terabajtoch. Box sa k počítaču pripája cez sieť. Každý disk v boxe je spravidla rozdelený na dve základné oblasti: jednu nazveme systémová a druhú dátová. Systémová časť má na každom disku rezervovaných niekoľko GB až niekoľko desiatok GB, na ktorých sú dve a alebo viac partícií. Systémová časť je potrebná na funkčnosť boxu a má partície nakonfigurované do mirroru. Pokiaľ nejakým fatálnym spôsobom nevypadnú všetky disky, aj keď zhavaruje dátová oblasť, systémová časť býva dostupná. Systémová časť používa niektorý z linuxových súborových systémov, napr. ext2/3.

Niekedy sú mirrorované (zrkadlené)  polia kombinované s virtuálnymi diskami. Na túto časť diskového priestoru nemá používateľ z hľadiska konfigurácie spravidla dosah. Polia RAID pre systémovú aj dátovú oblasť sú založené na linuxovom softvéri (softvérový RAID). Dátovú časť na diskoch si spravuje používateľ. Cez konfiguračné menu sa dá navoliť, aké pole si vytvoríte na dáta a ako bude rozdelený a používaný tento priestor. Veľká väčšina majiteľov si zvoli R5. Pri konfigurácii dátovej oblasti sa veľmi často automaticky vytvorí na danom poli aj linuxový virtuálny disk alebo disky. Výrobcovi boxu to umožňuje väčšiu flexibilitu v ponuke pri konfigurácii NAS. Čiže dáta ukladá používateľ na virtuálny disk, ktorý je vytvorený na softvérovom RAID-e. Používateľská dátová oblasť je väčšinou naformátovaná na niektorý linuxový súborový systém, nemusí byť ten istý ako pre systémovú časť. Pomerne často sa používa súborový systém xfs. Linux má veľké množstvo súborových systémov, kombinácia RAID-u a virtuálnych diskov je veľmi flexibilná, takže niektoré NAS môžu vybočovať z opísaného konceptu. Napríklad nemusia ukladať dáta na dátovú oblasť priamo, ale sa zapisujú do veľkého súboru s vlastným súborovým systémom. Potom ukladáte dáta na pole RAID, na ktorom je vytvorený virtuálny disk so súborovým systémom xfs, na ktorý sa zapisuje jeden veľký dátový súbor so systémom ntfs. V tomto veľkom súbore sú všetky používateľské dáta. Táto kombinácia nie je vymyslená, je z praxe.

 Každé zlyhanie na jednotlivých úrovniach pri zápise alebo čítaní sa premietne do konečného výsledku, teda do toho, či sú dáta prístupné, alebo nie. Strata dát má pri boxe NAS často takýto priebeh:

Box NAS zahlási problém s prístupom na dátovú oblasť a ponúkne možnosť nápravy s upozornením, že oprava môže trvať niekoľko hodín. Používateľ opravu spravidla odsúhlasí. Čiže spustí rebuild s rizikom, pričom nemusí vedieť, že sa môže stav ešte zhoršiť. Po niekoľkých hodinách, ak máte smolu, buď máte prístupnú dátovú oblasť, ale bez pôvodne zapísaných dát (strata nemusí byť úplná), alebo je dátová oblasť aj s dátami úplne neprístupná. Ak nie je dátová oblasť prístupná, na vine sú pri R5 spravidla dva disky odpojené zo softvérového RAID-u.

Disky môžu mať problém s čítaním, ale nie je to pravidlo. Pri testoch môžu byť z hľadiska funkčnosti v poriadku, ale k výpadku dôjde. Problémový faktor pri boxoch NAS, v ktorých boli použité disky s väčšou spotrebou, môže byť teplota. Boxy NAS majú väčšinou ventilátor na odvod horúceho vzduchu, ale veľmi často je umiestnený tak, že disky sú ofukované len minimálne.

Boxy NAS ponúkajú pri nastavovaní a bežnej prevádzke intuitívne a komfortné používateľské rozhranie. Výrobcovia boxov NAS pre domácich používateľov však v podstate vôbec nemajú ošetrený stav, keď zlyháva prístup k dátam a hrozí ich strata. Keď sa zobrazí ponuka, že dáta budú prístupné až po oprave, nie je tam aj varovanie, že dáta to nemusia prežiť. Dokonca sa používateľ ani nedozvie, čo je dôvodom problému. Ako sme spomenuli, systémová časť boxu NAS je v mirrore a je živá, aj ak keď má dátová časť problém. Čiže bola by možnosť, aby používateľ dostal viac informácií na zodpovednejšie rozhodnutie.

Pri boxoch NAS určených na firemné nasadenie je situácia pri výpadkoch veľmi podobná. Ajtu sa väčšinou používa R5 alebo R6. Môžete si vypadnutý disk ošetriť prítomnosťou a pripojením záložného disku. Už sme rozoberali, čo sa môže stať za menej priaznivých okolností.

Keďže základom zariadení je linuxový operačný systém, pri riešení problémov možno diagnostikovať stav pomocou nástrojov založených na Linuxe. Rizikom však môže byťsamotné odstránenie problému, pretože sa nemusí dať odhadnúť, do akej miery výrobca zariadenia použil štandardné linuxové prostredie a do akej miery si ho prispôsobil. Dokumentácia k zariadeniam býva v tomto smere viac ako skúpa.

Pri výpadkoch prístupu k dátam je veľmi dôležitý ľudský faktor. Nespoliehajte sa na to, že ak niečo spustíte, dopadne to dobre. Urobte všetko možné na to, aby ste v prípade, že to nedopadne dobre, boli čo v najmenšom probléme. Mnohé deje sú nevratné a patrí medzi ne aj zápis na magnetické médium. Na rozšírený mýtus o čítaní dát z postrannej stopy disku, ako možného a posledného zdroja dát, z praktického hľadiska určite zabudnite.

 

Ing. Štefan Šabo
externý spolupracovník pri obnove dát pre Macrofer
servis@adatpro.sk

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať