Ενότητα 2 από 13
Σε Εξέλιξη

2. Μεγάλα δεδομένα 3 “Vs”

Όγκος - Ποσότητα δεδομένων

Σχετίζεται με το μέγεθος (bytes) των βάσεων δεδομένων για την αποθήκευση δεδομένων. Μια συλλογή πολλών στοιχείων και παραγόντων έχει συμβάλει στην αύξηση του όγκου των δεδομένων: μη δομημένα δεδομένα, όπως αυτά που προέρχονται από τα μέσα κοινωνικής δικτύωσης, δεδομένα συναλλαγών που αποθηκεύονται για μεγάλο χρονικό διάστημα, αύξηση των αισθητήρων και των δεδομένων μεταξύ μηχανών που αποκτώνται με την πάροδο των ετών. Η αύξηση του όγκου των δεδομένων οδηγεί στο ερώτημα: πώς είναι δυνατόν να προσδιοριστούν και να ταυτοποιηθούν τα δεδομένα-κλειδιά σε ένα τεράστιο σύνολο και πώς είναι δυνατόν να τους δοθεί αξία;

Velocity - Ταχύτητα δεδομένων

Αναφέρεται στη μεγάλη ταχύτητα της ροής μεγάλων δεδομένων: ταχύτητα στη δημιουργία, απόκτηση, ενημέρωση και ανάπτυξη δεδομένων. Η πρόκληση και τα ερωτήματα πολλών οργανισμών και επιχειρήσεων είναι τα εξής: πώς είναι δυνατόν να αντιδράσουν άμεσα προκειμένου να ρυθμίσουν και να διαχειριστούν καλύτερα τα δεδομένα συμβαδίζοντας με την ταχύτητά τους;

Ποικιλία - Τυπολογία δεδομένων

Πρόκειται για τον διαφορετικό αριθμό πηγών (εσωτερικών/εξωτερικών) μορφών δεδομένων (ήχου/βίντεο/κ.λπ.). Οι τυπολογίες δεδομένων μπορούν να συνοψιστούν σε τρεις κύριες κατηγορίες: δομημένα δεδομένα, ημιδομημένα και αδόμητα δεδομένα. Η πρόκληση για τις εταιρείες είναι επομένως: πώς να αποκτήσουν, να διαχειριστούν και να ελέγξουν αποτελεσματικά έναν τεράστιο όγκο διαφορετικών δεδομένων;


(Πηγή:

Russom
, P. (2011). Ανάλυση μεγάλων δεδομένων. The Data Warehousing Institute)

Όγκος δεδομένων:

Μπορείτε να προσδιορίσετε τον όγκο των δεδομένων που παράγει μια εταιρεία σύμφωνα με μια τάξη μεγέθους τεραμπάιτ ή πεταμπάιτ (1 πεταμπάιτ = 1000 τεραμπάιτ = 1 εκατομμύριο γιγαμπάιτ).

Σύμφωνα με την IDC (International Data Corporation), το 2020 εκτιμάται ότι το σύνολο όλων των ψηφιακών δεδομένων που παράγονται και καταναλώνονται σε ένα έτος είναι περίπου 44 zettabytes (44 δισεκατομμύρια gigabytes).

(Πηγή: https://www.dell.com/en-us/dt/corporate/newsroom/announcements/2014/04/20140409-01.htm)

Ταχύτητα δεδομένων:

Για τη διαχείριση του ρυθμού ταχύτητας των δεδομένων υπάρχουν ειδικές ιστορικές βάσεις δεδομένων (για τον βιομηχανικό αυτοματισμό) και τεχνολογίες ροής δεδομένων ή επεξεργασίας σύνθετων συμβάντων, οι οποίες επιτρέπουν έναν γρήγορο πολλαπλό έλεγχο πολλών διαφορετικών πηγών δεδομένων. Σε γενικές γραμμές, αυτά τα “συστήματα υψηλής ταχύτητας” ονομάζονται “Streaming Data” και προκύπτουν από την ανάγκη να μειωθούν σημαντικά οι χρόνοι διαχείρισης και ανάλυσης των δεδομένων.

Τυπολογίες δεδομένων:

  • Δομημένα δεδομένα
    – δεδομένα που είναι δομημένα και συμμορφώνονται με ορισμένους προκαθορισμένους κανόνες, όπως: τύπος περιεχομένου, μορφή, μήκος κ.λπ. Είναι εύκολο να αποθηκευτούν, να ερμηνευθούν και να ταξινομηθούν.
  • Ημιδομημένα δεδομένα
    – δεδομένα που δεν συμμορφώνονται με ένα κοινό μοντέλο δεδομένων μιας βάσης δεδομένων, αλλά μπορούν να χωριστούν σε δομημένες εγγραφές με την εφαρμογή διαχωριστικών στοιχείων, όπως σημασιολογικές ετικέτες.
  • Μη δομημένα δεδομένα
    – δεδομένα που δεν συμμορφώνονται με κανόνες και διαγράμματα μιας τυπικής βάσης δεδομένων και επομένως είναι δύσκολο να ερμηνευθούν

Υπάρχει επίσης διαφορά μεταξύ των δεδομένων που παράγονται από τους χρήστες και των δεδομένων που παράγονται αυτόματα.

Τόμος

Ταχύτητα

Ποικιλία

Κάθε μέρα, δημιουργούνται όλο και περισσότερες εφαρμογές για να χρησιμοποιούν και να επωφελούνται από τα μεγάλα δεδομένα. Είμαστε οι πρώτες γεννήτριες μεγάλων δεδομένων. Οι κινήσεις μας, οι αγορές μας, ο τρόπος ζωής μας, τα συναισθήματά μας, παρακολουθούνται συνεχώς στο διαδίκτυο, μέσω smartphones, υπολογιστών, συστημάτων πλοήγησης αυτοκινήτων, κοινωνικών δικτύων. Ο όγκος αυτών των δεδομένων αυξάνεται συνεχώς, όπως και η ποικιλία των πηγών και των μορφών τους και η ταχύτητα της ροής τους.

Πηγή:
Domo 2016

Πηγή:
Κεπιός 2022