Čo je redukcia dát?

Obsah

Metódy redukcie dát sa dajú použiť na zníženie množstva dát, ktoré sú fyzicky uložené. To šetrí úložný priestor a náklady.

Čo znamená redukcia dát?

Pojem redukcia dát zahŕňa rôzne metódy používané na optimalizáciu kapacity. Cieľom týchto metód je znížiť množstvo ukladaných dát. Vzhľadom na celosvetový nárast objemu dát je redukcia dát nevyhnutná na zabezpečenie efektívneho využívania zdrojov a nákladov pri ukladaní dát.

Redukcia dát sa dá dosiahnuť kompresiou a deduplikáciou dát. Kým bezstratová kompresia využíva redundancie v súbore na kompresiu dát, algoritmy deduplikácie porovnávajú dáta v rôznych súboroch, aby sa zabránilo ich opakovaniu.

Čo je deduplikácia?

Deduplikácia je proces redukcie dát, ktorý v podstate spočíva v zabránení redundancii dát v úložnom systéme. Môže byť implementovaná buď v cieľovom úložisku, alebo v zdroji dát. Používa sa deduplikačný modul, ktorý pomocou špeciálnych algoritmov identifikuje a eliminuje redundantné súbory alebo dátové bloky. Hlavnou oblasťou použitia deduplikácie je zálohovanie dát.

Cieľom redukcie dát pomocou deduplikácie je zapísať na nevoliteľné pamäťové médiá len toľko informácií, koľko je potrebné na bezstratovú rekonštrukciu súboru. Čím viac duplikátov sa vymaže, tým menší je objem dát, ktorý je potrebné uložiť alebo preniesť.

Identifikáciu duplikátov je možné vykonať na úrovni súborov, napríklad pomocou Git alebo Dropbox. Efektívnejšou metódou je však použitie algoritmov deduplikácie, ktoré fungujú na úrovni podsúborov. Na tento účel sa súbory najskôr rozdelia na dátové bloky (chunk) a priradia sa im jedinečné kontrolné súčty alebo hash hodnoty. Sledovacia databáza, ktorá obsahuje všetky kontrolné súčty, funguje ako centrálny dozorný orgán.

Metódy deduplikácie založené na blokoch možno rozdeliť do dvoch variácií:

Pevná dĺžka bloku: Súbory sú rozdelené do sekcií presne rovnakej dĺžky na základe veľkosti klastra súboru alebo systému RAID (zvyčajne 4 KB).
Premenná dĺžka bloku: Algoritmus rozdeľuje dáta do rôznych blokov, ktorých dĺžka sa líši v závislosti od typu spracovávaných dát.

Spôsob rozdelenia blokov má obrovský vplyv na efektívnosť duplikácie dát. Je to zvlášť viditeľné v prípade, ak sú deduplikované súbory následne upravené. Pri použití pevných veľkostí blokov, ak je súbor zmenený, všetky nasledujúce segmenty sú algoritmom deduplikácie klasifikované ako nové kvôli posunu hraníc blokov. To zvyšuje výpočtovú náročnosť a využitie šírky pásma.

Ak naopak algoritmus používa premenné hranice blokov, úpravy jednotlivých dátových blokov nemajú žiadny vplyv na nasledujúce segmenty. Namiesto toho sa upravený dátový blok jednoducho rozšíri a uloží s novými bajtmi. Tým sa odbremení sieť. Flexibilita zmien súborov je však výpočtovo náročnejšia, pretože algoritmus musí najskôr zistiť, ako sú bloky rozdelené.

Čo je kompresia dát?

Pri kompresii dát sa súbory konvertujú do alternatívneho formátu, ktorý je efektívnejší ako pôvodný. Cieľom tohto typu redukcie dát je znížiť potrebný pamäťový priestor, ako aj čas prenosu. Takýto kódovací zisk možno dosiahnuť dvoma rôznymi prístupmi:

Kompresia redundancie: Pri bezstratovej kompresii dát je možné dáta po kompresii presne dekomprimovať. Vstupné a výstupné dáta sú preto identické. Tento druh kompresie je možný len vtedy, ak súbor obsahuje redundantné informácie.
Kompresia irelevantných údajov: Pri kompresii so stratou sa na kompresiu súboru odstránia irelevantné informácie. To je vždy sprevádzané stratou údajov. Po kompresii irelevantných údajov dochádza iba k približnému obnoveniu pôvodných údajov. Proces klasifikácie údajov ako irelevantných je diskrečný. Napríklad pri kompresii zvuku prostredníctvom MP3 sa odstránia frekvenčné vzory, o ktorých sa predpokladá, že ich ľudia takmer alebo vôbec nepočujú.

Zatiaľ čo kompresia na úrovni úložného systému je v podstate bezstratová, straty dát v iných oblastiach, ako je prenos obrazu, videa a zvuku, sú zámerne akceptované s cieľom znížiť veľkosť súborov.

Kódovanie aj dekódovanie súboru vyžaduje výpočtovú náročnosť. Tá závisí predovšetkým od použitej metódy kompresie. Niektoré techniky sa zameriavajú na čo najkompaktnejšie zobrazenie pôvodných údajov, iné sa sústreďujú na skrátenie potrebného výpočtového času. Voľba metódy kompresie je preto vždy závislá od požiadaviek projektu alebo úlohy, na ktorú sa používa.

Ktorá metóda redukcie dát je lepšia?

Na implementáciu zálohovacích postupov alebo optimalizáciu ukladania v štandardných súborových systémoch sa spoločnosti spravidla spoliehajú na deduplikáciu. Je to hlavne preto, že deduplikačné systémy sú mimoriadne efektívne, keď je potrebné ukladať identické súbory.

Metódy kompresie dát sú naopak spravidla spojené s vyššími výpočtovými nákladmi, a preto vyžadujú zložitejšie platformy. Najúčinnejšie je používať úložné systémy, ktoré kombinujú obe metódy redukcie dát. Najskôr sa pomocou deduplikácie odstránia nadbytočné údaje zo súborov, ktoré sa majú uložiť, a potom sa zostávajúce dáta komprimujú.

Súvisiace články

agsandrewshutterstock

Ako distribuovať pracovné zaťaženie servera pomocou vyrovnávača zaťaženia

Internetové obchody, firemné webové stránky alebo propagačný obsah: nezáleží na tom, akú platformu používate – dostupnosť zostáva kľúčom k úspešnému online obchodnému modelu. Stále viac spoločností sa rozhoduje pre použitie schém vyrovnávania zaťaženia, aby rovnomerne rozložili…

Čítať viac

Ako vytvárať zálohy servera pomocou rsync

Zálohovanie serverov je najlepší spôsob, ako uchovať dôležité údaje z vašich online projektov a zabrániť strate údajov. Sofistikovaná stratégia zálohovania zahŕňajúca všetky koncové zariadenia je nevyhnutná, najmä v prostredí serverov. Na to potrebujete spoľahlivé programy na…

Čítať viac