Ενότητα 2, Θεματική Ενότητα 1
Σε Εξέλιξη

2.1 Μάθηση υπό επίβλεψη

ΠΡΟΟΔΟΣ ΕΝΟΤΗΤΑΣ
0% Ολοκληρωμένο



Εποπτευόμενο


μάθηση

είναι η προσέγγιση για τη δημιουργία τεχνητής νοημοσύνης όπου ένας αλγόριθμος υπολογιστή εκπαιδεύεται σε δεδομένα εισόδου που έχουν επισημανθεί για μια συγκεκριμένη έξοδο

Το μοντέλο εκπαιδεύεται έως ότου μπορέσει να ανιχνεύσει τα υποκείμενα μοτίβα και τις σχέσεις μεταξύ των δεδομένων εισόδου και των ετικετών εξόδου, επιτρέποντάς του να παράγει ακριβή αποτελέσματα επισήμανσης όταν παρουσιάζονται δεδομένα που δεν έχουν ξαναδεί ποτέ.

Η επιβλεπόμενη μάθηση είναι καλή σε προβλήματα ταξινόμησης και παλινδρόμησης, όπως ο προσδιορισμός της κατηγορίας στην οποία ανήκει ένα ειδησεογραφικό άρθρο ή η πρόβλεψη του όγκου των πωλήσεων για μια δεδομένη μελλοντική ημερομηνία.

Στην επιβλεπόμενη μάθηση, ο στόχος είναι να κατανοήσουμε τα δεδομένα στο πλαίσιο μιας συγκεκριμένης ερώτησης.

Όπως όλοι οι αλγόριθμοι μηχανικής μάθησης, η μάθηση με επίβλεψη βασίζεται στην εκπαίδευση. Κατά τη διάρκεια της φάσης εκπαίδευσης, το σύστημα τροφοδοτείται με σύνολα δεδομένων με ετικέτες, τα οποία καθοδηγούν το σύστημα για το ποια έξοδος σχετίζεται με κάθε συγκεκριμένη τιμή εισόδου. Στη συνέχεια, το εκπαιδευμένο μοντέλο παρουσιάζεται με δεδομένα δοκιμής: πρόκειται για δεδομένα που έχουν επισημανθεί, αλλά οι ετικέτες δεν έχουν αποκαλυφθεί στον αλγόριθμο. Ο στόχος των δεδομένων δοκιμής είναι να μετρηθεί η ακρίβεια της απόδοσης του αλγορίθμου σε μη επισημασμένα δεδομένα.

Το επίπεδο ακρίβειας που μπορεί να επιτευχθεί εξαρτάται από δύο πράγματα: τα διαθέσιμα επισημασμένα δεδομένα και τον αλγόριθμο που χρησιμοποιείται.

Κατά την επιλογή ενός αλγορίθμου μάθησης με επίβλεψη, υπάρχουν μερικά πράγματα που πρέπει να ληφθούν υπόψη.

Η πρώτη είναι η προκατάληψη και η διακύμανση που υπάρχουν στον αλγόριθμο, καθώς υπάρχει μια λεπτή γραμμή μεταξύ του να είσαι αρκετά ευέλικτος και του να είσαι υπερβολικά ευέλικτος.

Μια άλλη είναι η πολυπλοκότητα του μοντέλου ή της λειτουργίας που προσπαθεί να μάθει το σύστημα. Όπως προαναφέρθηκε, η ετερογένεια, η ακρίβεια, ο πλεονασμός και η γραμμικότητα των δεδομένων θα πρέπει επίσης να αναλύονται πριν από την επιλογή ενός αλγορίθμου.

Παράδειγμα αλγορίθμου μηχανικής μάθησης με επίβλεψη - Γραμμική παλινδρόμηση

Ο πιο δημοφιλής τύπος αλγορίθμου μηχανικής μάθησης είναι αναμφισβήτητα η γραμμική παλινδρόμηση.

Η γραμμική παλινδρόμηση σχεδιάζει αντίστοιχες γραμμές τάσης, όπως οι επιδημίες ασθενειών, οι τιμές του bitcoin, η ζήτηση για ειδικούς λογισμικού κ.λπ.

Επιπλέον, η γραμμική παλινδρόμηση χρησιμοποιείται συχνά για την πρόβλεψη πωλήσεων και την εκτίμηση κινδύνων για επιχειρήσεις που επιδιώκουν να λάβουν μακροπρόθεσμες επιχειρηματικές αποφάσεις.

Οι αλγόριθμοι γραμμικής παλινδρόμησης χαρτογραφούν απλές συσχετίσεις μεταξύ δύο μεταβλητών σε ένα σύνολο δεδομένων. Ένα σύνολο εισροών και οι αντίστοιχες εκροές τους εξετάζονται και ποσοτικοποιούνται για να δείξουν μια σχέση, συμπεριλαμβανομένου του τρόπου με τον οποίο μια αλλαγή στη μία μεταβλητή επηρεάζει την άλλη. Οι γραμμικές παλινδρομήσεις απεικονίζονται μέσω μιας γραμμής σε ένα γράφημα.

Παράδειγμα αλγορίθμου μηχανικής μάθησης με επίβλεψη - Δέντρο αποφάσεων

Ένας αλγόριθμος δέντρου αποφάσεων λαμβάνει δεδομένα και τα παραθέτει γραφικά σε διακλαδώσεις για να δείξει τα πιθανά αποτελέσματα μιας ποικιλίας αποφάσεων. Τα δέντρα αποφάσεων ταξινομούν τις μεταβλητές απόκρισης και προβλέπουν τις μεταβλητές απόκρισης με βάση προηγούμενες αποφάσεις.

Τα δέντρα αποφάσεων είναι μια οπτική μέθοδος χαρτογράφησης αποφάσεων. Τα αποτελέσματά τους εξηγούνται εύκολα και μπορούν να είναι προσβάσιμα στους επιστήμονες δεδομένων.

Τα τόξα που προέρχονται από τους κόμβους που επισημαίνονται με ένα χαρακτηριστικό επισημαίνονται με κάθε μία από τις πιθανές τιμές του εν λόγω χαρακτηριστικού. Κάθε φύλλο του δέντρου επισημαίνεται με μια κλάση ή μια πιθανότητα κατανομής κλάσεων.

Η εκμάθηση από ένα δέντρο γίνεται με την κατάτμηση των υποσυνόλων πηγής με βάση μια δοκιμή απόδοσης. Η διαδικασία αυτή επαναλαμβάνεται σε κάθε παραγόμενο υποσύνολο, ακολουθώντας ένα αναδρομικό μοτίβο γνωστό ως αναδρομική διαμέριση ή αναδρομική διαμέριση

Αυτή η διαδικασία επαγωγής του δέντρου αποφάσεων αποτελεί παράδειγμα αλγορίθμου Greedy, ενός αλγορίθμου που ακολουθεί ευρετικές μεθόδους επίλυσης προβλημάτων, λόγω της τοπικής βέλτιστης επιλογής σε κάθε στάδιο. Αντιπροσωπεύει την πιο συνηθισμένη στρατηγική δέντρων αποφάσεων μάθησης.

Επιτρέπει την ταξινόμηση των περιπτώσεων μεγάλων δεδομένων. Στη δενδρική δομή, οι κόμβοι των φύλλων αποτελούν τις ταξινομήσεις και οι κλάδοι το σύνολο των ιδιοτήτων που οδηγούν σε αυτές τις ταξινομήσεις. Έτσι, κάθε εσωτερικός κόμβος είναι μια μακρο-κλάση που προκύπτει από την ένωση των κλάσεων που αναφέρονται στους κόμβους-παιδιά του.

Συνήθως, ένα δέντρο απόφασης κατασκευάζεται με τεχνικές μάθησης με βάση το αρχικό σύνολο δεδομένων (dataset), το οποίο χωρίζεται σε δύο υποσύνολα: το σύνολο εκπαίδευσης στο οποίο κατασκευάζεται η δομή του δέντρου- το σύνολο δοκιμής, το οποίο επιτρέπει τον έλεγχο της ακρίβειας του μοντέλου πρόβλεψης που κατασκευάζεται με αυτόν τον τρόπο.

Στο σχήμα η Ibm προσφέρει ένα παράδειγμα όπου κάποιος αποφασίζει αν θα πάει ή όχι για σερφ.

Παράδειγμα αλγορίθμου μηχανικής μάθησης με επίβλεψη - Δέντρο αποφάσεων

Τα δέντρα αποφάσεων είναι απλές μέθοδοι, αλλά παρουσιάζουν ορισμένα προβλήματα. Ένα ζήτημα είναι η μεγάλη διακύμανση των προτύπων που προκύπτουν από το δέντρο αποφάσεων.

Για τον μετριασμό αυτού του προβλήματος, έχουν αναπτυχθεί μέθοδοι συνόλου δέντρων αποφάσεων. Συγκεκριμένα, υπάρχουν δύο δημοφιλείς σήμερα μέθοδοι συνόλου: τα δέντρα απόφασης που εκπαιδεύονται με τη μέθοδο bagging και εκείνα με τη μέθοδο boosting.

Τα δέντρα αποφάσεων που εκπαιδεύονται με τη μέθοδο bagging (δηλαδή με μέσο όρο εκτιμήσεων) βασίζονται σε μια μέθοδο ελαχιστοποίησης της διακύμανσης των δέντρων αποφάσεων. Επιτρέπουν την κατασκευή πολλαπλών δένδρων απόφασης με επαναδειγματοληψία δεδομένων εκπαίδευσης με αντικατάσταση και ψηφοφορία δένδρων απόφασης με πρόβλεψη συναίνεσης. Αυτός ο αλγόριθμος είναι γνωστός ως Random forest: η τεχνική του τυχαίου δάσους είναι μια εξέλιξη του δέντρου αποφάσεων.

Δέντρα αποφάσεων εκπαιδευμένα με τη μέθοδο boosting. Η κλίση ενίσχυσης συνδυάζει αδύναμες μάθησης. Σε αυτή την περίπτωση, το δέντρο απόφασης σε μία μόνο ισχυρή μάθηση, προσαρμόζει ένα αδύναμο δέντρο στα δεδομένα και συνεχίζει επαναληπτικά την προσαρμογή των αδύναμων μαθήσεων προκειμένου να διορθώσει το σφάλμα του προηγούμενου μοντέλου.