Proces deduplikacji plików komputerowych, oznacza eliminowanie powtarzających się danych oraz może odbyć się na trzech najważniejszych poziomach: bajtu, bloków oraz plików. Każdy z tych poziomów przedstawia inny typ fragmentu danych.
Są one później za pomocą systemu sprawdzane pod kątem pojawienia się powtórzeń. Do tworzenia unikatowych identyfikatorów wykorzystywany jest wzorzec funkcji skrótu. Dotyczy to każdej poddanej analizie części danych. Wspomniane identyfikatory przechowywane są w indeksie, a potem stosowane są podczas procesu deduplikacji. Naturalnie duplikujące się fragmenty mają takie same identyfikatory funkcji skrótu.
Podoba Ci się ten wpis? To super, jeżeli chcesz zobaczyć coś równie atrakcyjnego, to zapewne zaciekawi Cię także wciągająca treść (http://reequest.pl/).
Teoretycznie im bardziej precyzyjna jest analiza, to tym wyższy jest parametr deduplikacji. W praktyce jednak wszystkie wymienione etapy w każdym przypadku mają swe wady i zalety. Przykładowo deduplikacja na poziomie plików okazuje się być w każdym przypadku najbardziej prosta do wdrożenia.
Co ważne, tego typu postać deduplikacji nie jest za bardzo obciążająca dla serwera, gdyż generowanie funkcji skrótu jest relatywnie szybkie. Niestety minusem tego typu formy jest to, że jeżeli dany plik zostanie w dowolny sposób zmieniony, to zmienia się też identyfikator funkcji skrótu. W wyniku obydwie wersje plików będą na serwerze zamieszczone. Deduplikacja na szczeblu bloków opiera się naturalnie na porównywaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Podobnej mocy potrzebuje deduplikacja na poziomie bajtów. Jest to w pewnej mierze w najwyższym stopniu podstawowy sposób porównywania danych.
Robi się to, jak jego nazwa wskazuje, bajt po bajcie. Przeprowadzana w taki sposób analiza jest naturalnie bardzo dokładna. Pewnym mankamentem mógłby okazać się czas przeprowadzania takiego rodzaju deduplikacji.