Μηχανική μάθηση
-
1. Η μηχανική μάθηση
-
2. Καθορισμός προσεγγίσεων μηχανικής μάθησης5 Θεματικές Ενότητες
-
3. Οι δεξιότητες που απαιτούνται από την αγορά εργασίας και τα νέα επαγγελματικά σχήματα
-
4. Τομείς εφαρμογής - Βιομηχανία
-
5. Τομείς εφαρμογής - Logistics
-
6. Τομείς εφαρμογής - Αναγνώριση εικόνας
-
7. Τομείς εφαρμογής - Παραγωγή, μετάφραση και ανάλυση κειμένων1 Κουΐζ
-
Τελικό βήμα
2.2 Μάθηση χωρίς επίβλεψη
Σε αντίθεση με τη μάθηση με επίβλεψη είναι η μάθηση χωρίς επίβλεψη.
Η μάθηση χωρίς επίβλεψη είναι δημοφιλής σε:
- Εφαρμογές της ομαδοποίησης (η πράξη της αποκάλυψης ομάδων μέσα στα δεδομένα)
- συσχέτιση (η πράξη της πρόβλεψης κανόνων που περιγράφουν τα δεδομένα).
Επιπλέον, θα παρουσιαστούν τα προβλήματα μείωσης της διαστατικότητας.
Σε αυτή την προσέγγιση, ο αλγόριθμος λαμβάνει δεδομένα χωρίς ετικέτες και έχει σχεδιαστεί για να ανιχνεύει μοτίβα ή ομοιότητες από μόνος του.
Μάθηση χωρίς επίβλεψη - Συσταδοποίηση
Στα προβλήματα ομαδοποίησης, θέλουμε να αποκαλύψουμε τις εγγενείς ομαδοποιήσεις στα δεδομένα. Μια συστάδα είναι, επομένως, μια συλλογή αντικειμένων που είναι “παρόμοια” μεταξύ τους και “ανόμοια” με τα αντικείμενα που ανήκουν σε άλλες συστάδες.
Διασκεδαστικό γεγονός!
Το μεγαλύτερο μέρος της μάθησης που λαμβάνει χώρα στον εγκέφαλό μας μπορεί να θεωρηθεί ως μη εποπτευόμενη. Κατά τον πρώτο χρόνο της ζωής τους, τα παιδιά έχουν πολύ λίγα “επισημειωμένα δεδομένα” όσον αφορά την ποσότητα της μάθησης που επιτελούν!
Μπορούν να μάθουν από μερικά παραδείγματα, χωρίς πολλές εξηγήσεις, και να γενικεύσουν από μόνα τους.
Φυσικά, μπορεί να κάνουν λάθη κατά την εκτέλεση αυτού του έργου, αλλά η ανάπτυξη καλών αναπαραστάσεων των όσων παρατηρούν τους επιτρέπει να διορθώνονται γρήγορα!
Παράδειγμα μη επιβλεπόμενου αλγορίθμου μηχανικής μάθησης - K-means
Ο αλγόριθμος K-means είναι ένας από τους πιο δημοφιλείς αλγόριθμους ομαδοποίησης.
Πρόκειται για έναν επαναληπτικό αλγόριθμο που χρησιμοποιεί ένα μοντέλο κεντροειδούς, που σημαίνει ότι κάθε συστάδα αντιπροσωπεύεται από το κέντρο της, το οποίο αντιστοιχεί στο μέσο όρο των σημείων που αντιστοιχούν στη συστάδα.
Αρχικά, πρέπει να επιλέξουμε τον επιθυμητό αριθμό K συστάδων και αρχικοποιούμε το κεντροειδές κάθε συστάδας επιλέγοντας ένα τυχαίο σημείο στο σύνολο δεδομένων μας.
Στη συνέχεια, παίρνουμε κάθε παράδειγμα στο σύνολο δεδομένων μας και καθορίζουμε σε ποια συστάδα ανήκει υπολογίζοντας τις αποστάσεις από όλα τα κεντροειδή και παίρνοντας το πλησιέστερο.
Το επόμενο βήμα είναι η προσαρμογή των κεντροειδών στο μέσο όρο των παραδειγμάτων που αντιστοιχούν σε κάθε συστάδα.
Μάθηση χωρίς επίβλεψη - Κανόνες συσχέτισης
Η εκμάθηση κανόνων συσχέτισης είναι μια άλλη μέθοδος μηχανικής μάθησης βασισμένη σε κανόνες για την ανακάλυψη ενδιαφερουσών σχέσεων μεταξύ μεταβλητών σε μεγάλες βάσεις δεδομένων.
Οι κανόνες συσχέτισης δημιουργούνται με την αναζήτηση δεδομένων για συχνά μοτίβα “αν-τότε” και με τη χρήση ενός συγκεκριμένου κριτηρίου στο πλαίσιο της Υποστήριξης και της Εμπιστοσύνης για τον καθορισμό των πιο σημαντικών σχέσεων.
Σε κάθε δεδομένη συναλλαγή με μια ποικιλία στοιχείων, οι κανόνες συσχέτισης αποσκοπούν στην ανακάλυψη των κανόνων που καθορίζουν πώς ή γιατί συνδέονται ορισμένα στοιχεία.
Ωστόσο, υπάρχει ένα τρίτο κριτήριο που μπορεί να χρησιμοποιηθεί, ονομάζεται Lift και μπορεί να χρησιμοποιηθεί για τη σύγκριση της αναμενόμενης και της πραγματικής εμπιστοσύνης. Η ανύψωση θα δείξει πόσες φορές αναμένεται να βρεθεί αληθής η δήλωση if-then.
Η υποστήριξη είναι η απόδειξη του πόσο συχνά εμφανίζεται ένα στοιχείο στα δεδομένα που δίνονται, καθώς η εμπιστοσύνη ορίζεται από το πόσες φορές οι δηλώσεις αν-τότε βρίσκονται αληθείς.
Ένα πολύ σημαντικό πρόβλημα μάθησης χωρίς επίβλεψη είναι η μείωση των διαστάσεων.
Οι τεχνικές μείωσης της διαστατικότητας αποσκοπούν στη μείωση του αριθμού των μεταβλητών που υπάρχουν στο σύνολο δεδομένων. Στις περισσότερες περιπτώσεις, οι μεταβλητές αυτές μπορεί να έχουν μεγάλες συσχετίσεις, καθιστώντας την αναπαράσταση περιττή και επηρεάζοντας αρνητικά την εκπαίδευση των μοντέλων μηχανικής μάθησης.
Η μείωση της διαστατικότητας μπορεί να επιτευχθεί μέσω:
- Εφαρμογές της ομαδοποίησης (η πράξη της αποκάλυψης ομάδων μέσα στα δεδομένα)
- συσχέτιση (η πράξη της πρόβλεψης κανόνων που περιγράφουν τα δεδομένα).
Ένα διαισθητικό παράδειγμα της μείωσης της διαστατικότητας μπορεί να συζητηθεί μέσω ενός απλού προβλήματος ταξινόμησης ηλεκτρονικού ταχυδρομείου, όπου πρέπει να ταξινομήσουμε αν το μήνυμα ηλεκτρονικού ταχυδρομείου είναι spam ή όχι. Αυτό μπορεί να περιλαμβάνει μεγάλο αριθμό χαρακτηριστικών, όπως το αν το ηλεκτρονικό μήνυμα έχει γενικό τίτλο ή όχι, το περιεχόμενο του ηλεκτρονικού μηνύματος, αν το ηλεκτρονικό μήνυμα χρησιμοποιεί εικόνα κ.λπ.