RAID: Τα αίτια που προκαλούν δυσλειτουργίες, η απώλεια και η ανάκτηση δεδομένων

Η χρήση μιας συστοιχίας RAID μπορεί να μας λύσει τα χέρια με τον αποθηκευτικό της όγκο και την ταχύτητα που προσφέρει, όμως εγκυμονεί κινδύνους: Μια μικρή ζημιά ή ένας λάθος υπολογισμός μπορεί να την καταστήσει άχρηστη και σε κάποιες περιπτώσεις μη ανακτήσιμη.

Οι αιτίες απώλειας δεδομένων και κατά συνέπεια η δυσλειτουργία του συστήματος RAID οφείλεται συχνά σε ένα από τα παρακάτω:

Λογισμικό

Το RAID αποτελείται από ένα σύνολο σκληρών δίσκων που δουλεύουν ταυτόχρονα για να πετύχουν το επιθυμητό αποτέλεσμα. Το λογισμικό που χρησιμοποιεί το “κουτί” αποτελεί την κινητήρια δύναμη της συστοιχίας RAID, καθώς διαχειρίζεται τη διανομή δεδομένων προς και από τις μονάδες που την αποτελούν.

Η αναβάθμιση λογισμικού (αυτόματη και μη) μπορεί περιστασιακά να οδηγήσει σε απώλεια δεδομένων.

Όλοι έχουμε ακούσει το ρητό ‘Better safe than sorry’, γι’αυτό δημιουργούμε αντίγραφα ασφαλείας των δεδομένων πριν από κάθε σημαντικό update.

Βίντεο1: Τα ιδιαίτερα χαρακτηριστικά του κάθε τύπου και χρήσιμες συμβουλές που θα σας χρειαστούν κατά την κατασκευή ενός συστήματος RAID.

Uncorrectable bit errors

Παρά το γεγονός ότι οι σημερινοί δίσκοι αποτελούν συσκευές υψηλής αξιοπιστίας, πολλές φορές αποτυγχάνουν στην σωστή εγγραφή ή ανάγνωση των data bits, για διάφορους λόγους. Σύμφωνα με τους κατασκευαστές των δίσκων, τα λάθη αυτά δημιουργούνται κατά τις διεργασίες εγγραφής (write operations) και εντοπίζονται κατά τις λειτουργίες ανάγνωσης (read operations).

Ενδεικτικά ο ρυθμός κατά των οποίο πραγματοποιούνται αυτές οι ”δυσλειτουργίες” κυμαίνεται στο 1 λάθος bit κατά το διάβασμά 10^14 bits.

Αξίζει να σημειωθεί πως με την πάροδο του χρόνου και καθώς φθείρεται η συσκευή αποθήκευσης που χρησιμοποιούμε ο ρυθμός με τον οποίο εντοπίζονται τα bit errors εντείνεται.

Τροφοδοσία

Οι δυσλειτουργίες του ελεγκτή (controller) είναι από τους πιο συνηθισμένους τύπους απώλειας δεδομένων και συχνά προκαλείται από υπερτάσεις του ρεύματος. Επομένως είναι σημαντικό να επιλέξουμε κατάλληλο τροφοδοτικό, πολύπριζο και UPS που θα προστατεύσουν το σύστημα σε περίπτωση απότομης αύξησης ή μείωσης της τάσης του ρεύματος.

Δεν παραβλέπουμε την αναγκαιότητα των παραπάνω εξαρτημάτων και επενδύουμε σε ποιοτικό εξοπλισμό ώστε να κρατήσουμε τους δίσκους μας υγιείς και λειτουργικούς. Ένα από τα δεδομένα που πρέπει να λάβουμε υπόψιν είναι η ποιότητα των πυκνωτών που φέρει το τροφοδοτικό μας. Η κακής ποιότητας πυκνωτές παράγουν περισσότερη θερμότητα με αποτέλεσμα να μειώνεται η διάρκεια ζωής τους και να λειτουργούν σε χαμηλές αποδόσεις.

Προβληματικό τροφοδοτικό ή/και κακής ποιότητας UPS μπορεί να αποβούν μοιραία για τη συστοιχία RAID καθώς μια (από τις πολύ συχνές στη χώρα μας) αυξομείωση της τάσης μπορεί να κάψει τους δίσκους, ιδίως αν ανήκουν στην κατηγορία εκείνων που δεν έχουν προστασία στην πλακέτα ή αυτή που έχουν είναι σχεδιασμένη λάθος (δείτε εδώ).

Βλάβη στο δίσκο

Εντοπίζονται περιπτώσεις κατά τις οποίες ένας δυσλειτουργικός δίσκος μπορεί να καταστρέψει ολόκληρη τη συστοιχία. Η βλάβη μπορεί να προκληθεί είτε από φυσική φθορά του δίσκου, είτε από βλάβη στον controller, είτε από οποιαδήποτε άλλη αιτία.

Ας πάρουμε για παράδειγμα μια συστοιχία RAID τύπου 0 με δύο δίσκους. Τα δεδομένα διαμοιράζονται ανάμεσα στους δύο δίσκους που συμμετέχουν στη συστοιχία (Striping). Αν για οποιονδήποτε λόγο “πέσει” ο ένας εκ των δύο δίσκων, τότε “πέφτει” ολόκληρη η συστοιχία και τα δεδομένα δεν είναι διαθέσιμα. Αν πάλι, για οποιονδήποτε λόγο, ο δίσκος που “έπεσε” είναι μη-ανακτήσιμος (πχ. λόγω καταστροφής των επιφανειών του), τότε όλα τα δεδομένα θα είναι μη-ανακτήσιμα.

Εμείς θα συνεχίσουμε να σας προτείνουμε να θυσιάσετε την ταχύτητα που προσφέρει το RAID 0 στον βωμό της ασφαλούς διατήρησης των δεδομένων. Θεωρούμε αδιανόητο να αποθηκεύονται σημαντικά δεδομένα σε συστοιχία RAID 0.

Βλάβη κατά την διαδικασία ανακατασκευής (Rebuild)

To Rebuild είναι η διαδικασία όπου η συστοιχία επαναδημιουργείται μετά από σφάλμα (πχ. αντικατάσταση ενός δίσκου που “έπεσε” σε ένα RAID 5). Συνήθως αυτή η διαδικασία γίνεται αυτόματα μόλις μπει στη συστοιχία ο νέος δίσκος οπότε και δημιουργείται το parity, όμως πολλές φορές παρουσιάζονται επιπλοκές. Αν, για παράδειγμα, υπάρχει και δεύτερος δίσκος στη συστοιχία ο οποίος είναι ετοιμόρροπος, ή έχει πολλές βλάβες στην επιφάνειά του, τότε το rebuild μπορεί να αποτύχει και το re-distribution των δεδομένων να μπερδέψει τα δεδομένα μέσα στους δίσκους, καθώς πλέον και ένας ακόμα δίσκος θα είναι εκτός συστοιχίας.

Κάτι τέτοιο, δεν το θέλετε 🙂

Αν διαπιστωθεί πρόβλημα στο σύστημα αποθήκευσης είναι πολύ σημαντικό να κλείσετε τη συστοιχία και να μην επιχειρήσετε rebuild πριν σιγουρευτείτε ότι όλα είναι καλά, τόσο με την ίδια τη συστοιχία όσον αφορά τα επιμέρους τμήματά της, όσο και με τους υπόλοιπους δίσκους. Οποιαδήποτε λάθος κίνηση μπορεί να έχει καταστροφικά αποτελέσματα.

Αν έχετε οποιαδήποτε αμφιβολία, επικοινωνήστε μαζί μας για να συζητήσουμε για τη δική σας υπόθεση.

MALWARE / RANSOMWARE

Ο αόρατος εχθρός παραμονεύει και δεν είναι λίγες οι φορές που στοχεύει πλούσια σε δεδομένα αποθηκευτικά μέσα, όπως οι συστοιχίες RAID κάθε τύπου. Toν τελευταίο καιρό, μάλιστα, ισχύει το ακριβώς ανάποδο: Οι συστοιχίες RAID και τα NAS Boxes έχουν μπει στο επίκεντρο των επιτιθέμενων.

Είναι χαρακτηριστικό ότι τόσο τα δημοφιλή QNAP βρέθηκαν στο επίκεντρο με χιλιάδες μολυσμένες συσκευές, ενώ παλιότερα οι δικτυακοί δίσκοι της WD είχαν μπει στο επίκεντρο, με τους επιτιθέμενους να εκμεταλλεύονται ευπάθειες στο λογισμικό του δίσκου για να εισέλθουν και να προχωρήσουμε στις επιμολύνσεις. Και αυτά είναι μόνον δύο από τα δεκάδες παραδείγματα που έχουμε.

Θωρακίστε το υλικό και τα δεδομένα σας χρησιμοποιώντας ισχυρό λογισμικό προστασίας.
Μην διστάσετε να κάνετε Backup ανά τακτά χρονικά διαστήματα.

Ο ανθρώπινος παράγοντας

Η ανάκτηση δεδομένων περιπλέκεται ιδιαίτερα ή γίνεται αδύνατη όταν μπαίνει στο παιχνίδι το ανθρώπινο λάθος. Ένας δίσκος μπορεί να καταρρεύσει για οποιονδήποτε λόγο.

ΔΕΝ μπορείτε να τον επισκευάσετε μόνοι σας και να τον ξαναβάλετε στη συστοιχία RAID σας.
ΔΕΝ μπορείτε να ανοίξετε έναν δίσκο και να τον κάνετε να ξαναπαίξει. Οι δίσκοι πρέπει να ανοίγονται σε ελεγχόμενο περιβάλλον από ανθρώπους που ξέρουν.
ΔΕΝ πρέπει να γράφετε δεδομένα επάνω στους δίσκους μετά από αποτυχημένο Rebuild.
ΔΕΝ πρέπει να ανταλλάσσετε πλακέτες μεταξύ των δίσκων επειδή “μοιάζουν ίδιοι οπτικά”. Υπάρχει πιθανότητα να καταστήσετε τους δίσκους 100% μη-ανακτήσιμους! (δείτε γιατί)
ΔΕΝ πρέπει να εμπιστεύεστε “εταιρίες ανάκτησης” που διαδίδουν ανοησίες για τις ικανότητες και την παλαιότητά τους στο χώρο. Έχει γίνει ρουτίνα μας να μαζεύουμε τα “σπασμένα” τους εδώ και σχεδόν 20 χρόνια.

RAID 5 με 7 δίσκους των 12ΤΒ έκαστος 🙂

Είναι δυνατή η ανάκτηση συστοιχιών RAID;

Ναι, αρκεί να μην πάρουμε τους δίσκους στα χέρια μας αφού έχουν κακοποιηθεί προηγουμένως με οποιονδήποτε τρόπο, είτε από εσάς που πιστέψατε ότι θα είναι κάτι εύκολο, είτε από τις “εταιρίες” που λέγαμε προηγουμένως.

H διαδικασία ανάκτησης δεδομένων από συστοιχίες RAID είναι πολύ πιο δύσκολη από μια ‘απλή’ ανάκτηση σκληρού δίσκου και πρέπει να τελείται μόνο από εξειδικευμένο προσωπικό, το οποίο θα πρέπει να έχει βαθιά γνώση του αντικειμένου και να ξέρει τι κάνει.

Ποια είναι η διαδικασία που ακολουθούμε στην Northwind Data Recovery για την ανάκτηση μιας συστοιχίας RAID

  1. Παραλαμβάνουμε τους δίσκους και παίρνουμε ιστορικό τους
  2. Προχωράμε σε αναλυτικό διαγνωστικό έλεγχο για τον κάθε έναν από τους δίσκους που είναι μέλη της συστοιχίας RAID.
  3. Με το πέρας των ελέγχων, ενημερώνουμε τον τελικό πελάτη για τις προοπτικές ανάκτησης, το κόστος και τον χρόνο που εκτιμούμε πως θα χρειαστεί για να ανακτηθούν τα δεδομένα του RAID. Στην συντριπτική πλειοψηφία των περιπτώσεων, ο χρόνος είναι ιδιαίτερης σημασίας, γι’αυτό και στην Northwind Data Recovery, όλα τα RAID που έρχονται για ανάκτηση μπαίνουν αυτόματα σε απόλυτη προτεραιότητα.
  4. –ως το σημείο αυτό η διαδικασία είναι απολύτως δωρεάν–
  5. Μόλις λάβουμε την έγκριση από τον πελάτη, προχωράμε σε κλωνοποίηση όσων δίσκων είναι εφικτό, σε δικά μας μέσα. Όσοι δίσκοι έχουν βλάβη και χρειάζονται επέμβαση, μπαίνουν στο Clean Room και στη συνέχεια προχωράμε σε κλωνοποίησή τους.
  6. Μόλις έχουμε όλους τους κλώνους, προχωράμε σε ανάλυση. Η ανάλυση περιλαμβάνει, αν για παράδειγμα έχουμε να κάνουμε με ένα RAID 5, την εύρεση της σειράς των δίσκων, του stripe size, του offset, του delay αν υπάρχει, κλπ.
  7. Μόλις εντοπιστούν αυτές οι παράμετροι, στήνουμε ένα εικονικό RAID array, εφαρμόζοντας όλες τις λεπτομέρεις που έχουμε βρει και ανακτούμε τα δεδομένα.
  8. Ελέγχονται τα δεδομένα που έχουν ανακτηθεί για συνεκτικότητα. Συνήθως στις συστοιχίες περιέχονται βάσεις δεδομένων οπότε ελέγχουμε για τη λειτουργικότητά τους, έτσι ώστε να είμαστε σίγουροι ότι στον τελικό πελάτη θα παραδοθούν δεδομένα που θα τον ικανοποιούν 100%.