Μηχανική μάθηση
-
1. Η μηχανική μάθηση
-
2. Καθορισμός προσεγγίσεων μηχανικής μάθησης5 Θεματικές Ενότητες
-
3. Οι δεξιότητες που απαιτούνται από την αγορά εργασίας και τα νέα επαγγελματικά σχήματα
-
4. Τομείς εφαρμογής - Βιομηχανία
-
5. Τομείς εφαρμογής - Logistics
-
6. Τομείς εφαρμογής - Αναγνώριση εικόνας
-
7. Τομείς εφαρμογής - Παραγωγή, μετάφραση και ανάλυση κειμένων1 Κουΐζ
-
Τελικό βήμα
2.5 Ενισχυτική μάθηση
Οι αλγόριθμοι ενισχυτικής μάθησης βασίζονται σε ένα σύστημα ανταμοιβών και τιμωριών που μαθαίνονται μέσω δοκιμής και λάθους. Στο μοντέλο δίνεται ένας στόχος και αναζητά τη μέγιστη ανταμοιβή για να πλησιάσει το στόχο με βάση περιορισμένες πληροφορίες και μαθαίνει από τις προηγούμενες ενέργειές του.
Οι αλγόριθμοι ενισχυτικής μάθησης μπορούν να είναι χωρίς μοντέλα – δημιουργώντας ερμηνείες δεδομένων μέσω συνεχούς δοκιμής και σφάλματος – ή βασισμένοι σε μοντέλα – ακολουθώντας πιο στενά ένα σύνολο προκαθορισμένων βημάτων με ελάχιστη δοκιμή και σφάλμα.
Σε αντίθεση με τις παραδοσιακές μεθόδους, οι τεχνικές ενισχυτικής μάθησης δεν απαιτούν προηγούμενη γνώση της δυναμικής του προβλήματος, καθώς μαθαίνουν να επιλύουν το πρόβλημα λήψης αποφάσεων μέσω της άμεσης αλληλεπίδρασης μεταξύ του πράκτορα και του περιβάλλοντος στο οποίο λειτουργεί.
Παράδειγμα μάθησης με ενίσχυση - Model Free - Q-learning
Οι αλγόριθμοι εκμάθησης Q είναι αλγόριθμοι χωρίς μοντέλα, πράγμα που σημαίνει ότι επιδιώκουν να βρουν την καλύτερη μέθοδο για την επίτευξη ενός καθορισμένου στόχου αναζητώντας τη μέγιστη ανταμοιβή δοκιμάζοντας το μέγιστο αριθμό ενεργειών.
Το Q-learning συνδυάζεται συχνά με μοντέλα βαθιάς μάθησης σε ερευνητικά έργα, συμπεριλαμβανομένου του DeepMind της Google.
Η εκμάθηση Q αναλύεται περαιτέρω σε διάφορους αλγορίθμους, όπως η βαθιά ντετερμινιστική κλίση πολιτικής (DDPG) ή η αναπαραγωγή εμπειρίας εκ των υστέρων (HER).
Η ενισχυτική μάθηση είναι χρήσιμη όταν δεν υπάρχει “σωστός τρόπος” για την εκτέλεση μιας εργασίας, αλλά υπάρχουν κανόνες που πρέπει να ακολουθήσει το μοντέλο για να εκτελέσει σωστά τα καθήκοντά του.
Παράδειγμα μάθησης με ενίσχυση - Εκτίμηση αξίας με βάση το μοντέλο
Σε αντίθεση με τις προσεγγίσεις χωρίς μοντέλα, όπως η εκμάθηση Q, οι αλγόριθμοι που βασίζονται σε μοντέλα έχουν περιορισμένο βάθος ελευθερίας για τη δημιουργία πιθανών καταστάσεων και ενεργειών και είναι στατιστικά πιο αποδοτικοί.
Τέτοιοι αλγόριθμοι, όπως ο δημοφιλής MBVE, προσαρμόζονται σε ένα συγκεκριμένο σύνολο δεδομένων και βασικών ενεργειών χρησιμοποιώντας μάθηση με επίβλεψη. Οι σχεδιαστές της MBVE σημειώνουν ότι “οι μέθοδοι που βασίζονται σε μοντέλα μπορούν να φτάσουν γρήγορα σε σχεδόν βέλτιστο έλεγχο με μαθημένα μοντέλα κάτω από αρκετά περιορισμένες κατηγορίες δυναμικής”.
Οι επιχειρήσεις θα πρέπει να εξετάσουν ποιες περιπτώσεις χρήσης θέλουν να επιλύσουν κατά τη δημιουργία των μοντέλων τεχνητής νοημοσύνης τους.
Οι μέθοδοι που βασίζονται σε μοντέλα είναι σχεδιασμένες για συγκεκριμένες περιπτώσεις χρήσης.
Δεν είναι κάθε τύπος αλγορίθμου καλύτερος για κάθε περίπτωση χρήσης. Με την κατανόηση των βασικών αρχών πίσω από τους διαφορετικούς τύπους αλγορίθμων μηχανικής μάθησης, οι επιχειρήσεις μπορούν να διασφαλίσουν ότι χρησιμοποιούν τον καλύτερο αλγόριθμο για τη συγκεκριμένη εργασία.