Introduction to Feature Selection by Marios Bikos

Introduction to Feature Selection!

Page 1

Mάριος Μπίκος Μάθημα: Αναγνώριση Προτύπων Ημερομηνία:03/01/2013 Tμήμα Ηλεκτρολόγων Μηχανικών & Τεχνολογίας Η/Υ Πανεπιστήμιο Πατρών

EΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ

(Introduction to Feature Selection) 1. Εισαγωγή Η προεπεξεργασία δεδομένων είναι ένα αναπόσπαστο τμήμα της αποτελεσματικής ανάλυσης δεδομένων.Προετοιμάζει τα δεδομένα για την εκμάθηση μηχανής και την εξόρυξη δεδομένων, που στόχο έχουν να μετατρέψουν τις πληροφορίες αυτές σε επιχειρηματική ευφυΐα ή γνώση. ΈΈνα από τα μεγαλύτερα προβλήματα που σχετίζονται με την αναγνώριση προτύπων είναι η αποκαλούμενη κατάρα της διαστασιμότητας.Ο αριθμός των χαρακτηριστικών που βρίσκονταν στη διάθεση του σχεδιαστή ενός συστήματος ταξινόμησης το 1997 δεν ξεπερνούσε τα 40 χαρακτηριστικά.Ωστόσο σήμερα η κατάσταση έχει αλλάξει δραματικά αφού έχουν επικρατήσει νέοι τύποι δεδομένων και οι περισσότερες ερευνητικές εργασίες και τεχνικές ασχολούνται με τομείς που περιλαμβάνουν εκατοντάδες έως δεκάδες χιλιάδες χαρακτηριστικά. Χαρακτηριστικό παράδειγμα αποτελεί η επιλογή γονιδίων από μικροσυστοιχίες γονιδίων(DNA Chip).Στο πρόβλημα αυτό, οι μεταβλητές είναι συντελεστές έκφρασης γονιδίου που δείχνουν την αφθονία του mRNA σε ένα δείγμα (π.χ. βιοψία ιστού), για έναν αριθμό ασθενών. Στόχος είναι να διαχωριστούν υγιείς ασθενείς από ασθενείς με καρκίνο, με βάση το «προφίλ» γονιδιακής έκφρασης τους. Συνήθως λιγότερα από 100 παραδείγματα (ασθενείς) είναι διαθέσιμα συνολικά για την εκπαίδευση και τη δοκιμή. ΌΌμως, ο αριθμός των μεταβλητών(χαρακτηριστικών) στα πρωτογενή δεδομένα κυμαίνεται από 6.000 έως 60.000.Αλλά και στην καθημερινή μας ζωή χρησιμοποιούμε την επιλογή χαρακτηριστικών για να ταξινομήσουμε αντικείμενα όπως ανθρώπους και αμάξια.Οι άνθρωποι έχουν χέρια, κάτι που λείπει από τα αμάξια.Επιλέγοντας,λοιπόν, το κατάλληλο υποσύνολο χαρακτηριστικών μπορούμε να κάνουμε την κατάλληλη ταξινόμηση σε κατηγορίες. Η βασική ιδέα της επιλογής χαρακτηριστικών(feature selection) είναι ότι για να σχεδιάσουμε ένα σύστημα ταξινόμησης, επιλέγουμε πρώτα ένα υποσύνολο χαρακτηριστικών στο οποίο θα δοθεί έμφαση, αντί να χρησιμοποιήσουμε όλα τα διαθέσιμα χαρακτηριστικά, αποκλείοντας όσα είναι περιττά ή άσχετα.Η επιλογή χαρακτηριστικών είναι αναγκαία σε ορισμένες περιπτώσεις, όπως όταν η διαδικασία επίτευξης των χαρακτηριστικών είναι ακριβή, όταν θέλουμε να εξάγουμε κανόνες με νόημα και όταν τα αρχικά χαρακτηριστικά δεν είναι μετρήσιμα μεγέθη. Υπάρχουν, ωστόσο, περισσότεροι από ένας λόγοι για να μειωθεί ο αριθμός των χαρακτηριστικών σε ένα επαρκές ελάχιστο.ΈΈνας από αυτούς είναι προφανώς η υπολογιστική πολυπλοκότητα. Επιπλέον, διευκολύνεται η οπτικοποίηση και η κατανόηση των δεδομένων, ενώ μειώνεται η ποσότητα των δεδομένων που απαιτούνται για την

Introduction to Feature Selection!

Page 2

εκμάθηση και τη βελτίωση της προγνωστικής ακρίβειας των αλγορίθμων .ΈΈτσι καταπολεμάται η κατάρα της διαστασιμότητας με σκοπό να βελτιωθούν οι επιδόσεις πρόβλεψης. Για να κάνουμε αυτό το είδος ταξινόμησης με βάση τα χαρακτηριστικά, θα πρέπει να καταλάβουμε ποια χαρακτηριστικά κάνουν καλή πρόβλεψη της κατηγορίας, ανάμεσα στις κατηγορίες εκείνες που προσπαθούμε να διακρίνουμε. Για παράδειγμα, οι τροχοί διακρίνουν τους ανθρώπους από τα αυτοκίνητα, αλλά όχι τα αυτοκίνητα από τα τρένα. Αυτοί είναι δύο διαφορετικοί στόχοι ταξινόμησης. Ανάλογα με το πρόβλημα ταξινόμησης που αντιμετωπίζουμε, διαφορετικά χαρακτηριστικά ή σύνολα χαρακτηριστικών μπορεί να είναι σημαντικά, και επιβάλλλεται να γνωρίζουμε τη διαδικασία ώστε να φτάσουμε στη γνώση του ποια από αυτά είναι τελικά απαραίτητα. Σε διάφορες ερευνητικές εργασίες, ένα απλό παράδειγμα αποδεικνύει ότι για ένα πεπερασμένο αριθμό συνόλου εκπαίδευσης Ν, με την αύξηση του αριθμού των χαρακτηριστικών βελτιώνεται αρχικά η απόδοση, αλλά μετά από μια κρίσιμη τιμή, περαιτέρω αύξηση του αριθμού των χαρακτηριστικών οδηγεί σε αύξηση της πιθανότητας σφάλματος.Αυτό το φαινόμενο είναι επίσης γνωστό ως το φαινόμενο κορύφωσης(peaking phenomenon).Αυτό επιβεβαιώνει τα όσα είπαμε και στην εισαγωγή, ότι δηλαδή δεν είναι πάντα σωστό να υποθέτουμε ότι όσο μεγαλώνει ο αριθμός των χαρακτηριστικών τόσο καλύτερο ταξινομητή θα έχουμε.

Σχήμα 1. Peaking Phenomenon-N πρότυπα, l χαρακτηριστικά 2 Επιλογή υποσυνόλου χαρακτηριστικών Η διαδικασία επιλογής ενός υποσυνόλου χαρακτηριστικών προκειμένου να μειώσουμε τον αριθμό των χαρακτηριστικών και να πετύχουμε την βέλτιστη ταξινόμηση περιλαμβάνει 2 φάσεις: I.

Ελάττωση του αριθμού των χαρακτηριστικών, με την απόρριψη εκείνων που φέρουν την λιγότερη πληροφορία, χρησιμοποιώντας τις Βαθμωτές τεχνικές επιλογής χαρακτηριστικών.

II.

Εξέταση των χαρακτηριστικών που έμειναν σε συνδυασμούς προκειμένου να πετύχουμε τον καλύτερο συνδυασμό χαρακτηριστικών, δηλαδή το βέλτιστο υποσύνολο χαρακτηριστικών.

Introduction to Feature Selection!

Page 3

Ι)ΈΈνας τρόπος να μειωθεί λοιπόν ο αριθμός των χαρακτηριστικών γρήγορα και απλά είναι να εξεταστεί το καθένα ξεχωριστά και να υπάρξει μία ιεράρχηση από το σημαντικότερο προς το λιγότερο σημαντικό για την ταξινόμηση.Για παράδειγμα αν σε ένα σύστημα ταξινόμησης έχουμε λεμόνια και μπανάνες, προφανώς το μήκος του φρούτου θα βρίσκεται πιο ψηλά στην ιεραρχία από το χρώμα του φρούτου το οποίο δεν μπορεί να διακρίνει τα φρούτα.

2.1 Βαθμωτές τεχνικές επιλογής χαρακτηριστικών Αρχικά,λοιπόν,εξετάζουμε πόση πληροφορία μεταφέρει κάθε χαρακτηριστικό.Η διαδικασία αυτή μας βοηθά να απορρίψουμε εύκολα "κακές" επιλογές και κρατάμε τις πιο εξελιγμένες τεχνικές, οι οποίες θα εξεταστούν στη συνέχεια. Τρεις είναι οι κυριότερες βαθμωτές τεχνικές επιλογής χαρακτηριστικών: I)ΈΈλεγχος υποθέσεων: t-test Η βασική ιδέα στο t-test είναι να ελέγξουμε αν η μέση τιμή του χαρακτηριστικού για κάθε κλάση διαφέρει σημαντικά η μία από την άλλη.Πρόκειται για μία δημοφιλή επιλογή όταν τα δεδομένα ακολουθούν την κανονική κατανομή. Στόχος είναι να ελεγχθεί ποια από τις παρακάτω 2 υποθέσεις ισχύει: Η1: Το χαρακτηριστικό έχει διαφορετική μέση τιμή σε κάθε κλάση Η0: Το χαρακτηριστικό έχει την ίδια μέση τιμή σε κάθε κλάση Εάν ισχύει το H0(μηδενική υπόθεση) τότε απορρίπτεται το χαρακτηριστικό, διότι είναι δύσκολο με βάση αυτό να διακρίνουμε τα δεδομένα σε κατηγορίες.Αντιθέτως αν ισχύει το H1(εναλλακτική υπόθεση) οι τιμές του χαρακτηριστικού διαφέρουν σημαντικά ανάμεσα στις κατηγορίες και μπορούν να διακριθούν ευκολότερα.ΈΈτσι το χαρακτηριστικό επιλέγεται. II)H καμπύλη Receiver Operating Characteristic(ROC) Εάν στην προηγούμενη μέθοδο, οι αντίστοιχες μέσες τιμές βρίσκονται κοντά, η πληροφορία μπορεί να μην είναι επαρκής για να εγγυηθούμε καλές ιδιότητες ταξινόμησης.Η τεχνική ROC μας δίνει πληροφορίες σχετικά με την επικάλυψη ανάμεσα στις κατηγορίες αφού ποσοτικοποιεί μία περιοχή που ορίζουν 2 καμπύλες και ονομάζεται AUC(Area Under the receiver operating Curve).

Σχήμα 2. Αριστερά 2 σ.π.π και δεξιά η καμπύλη ROC

Introduction to Feature Selection!

Page 4

III) Λόγος Διάκρισης Fisher Για την ποσοτικοποίηση της διακριτικής ικανότητας ενός χαρακτηριστικού χρησιμοποιείται και ο λόγος διάκρισης Fisher(FDR).Ο λόγος αυτός είναι ανεξάρτητος της κατανομής που ακολουθεί η κλάση και ορίζεται ως: Feature Selection: An Ever Evolving Frontier in Data Mining

and proteomics, and networks in social computing and system biology. Researchers are realizing that in order to achieveδεν successful data mining, feature selection is an indispensable Τα παραπάνω κριτήρια λαμβάνουν υπόψην τους τις συσχετίσεις ανάμεσα στα component (Liu and Motoda, 1998; Guyon and Elissee↵ , 2003; Liu and Motoda, 2007). It χαρακτηριστικά και δεν αξιοποιούν τον συντελεστή ετεροσυσχέτισης μεταξύ τους.Στην is βαθμωτή a process ofεπιλογή selectingχαρακτηριστικών, a subset of original χρειάζεται features according to certain criteria, and αφού επιλέξουμε κάποιο κριτήριο,να γίνει anιεράρχηση important and used technique in data mining for και dimension reduction. η It ετεροσυσχέτιση τωνfrequently χαρακτηριστικών σε φθίνουσα σειρά να υπολογιστεί reduces the number of features, removes irrelevant, redundant, or noisy features, and brings του πρώτου στην ιεραρχία με όλα τα υπόλοιπα.Αυτή η ετεροσυσχέτιση μπορεί να about palpable e↵ ects for applications: speeding up a data mining algorithm, improving επηρεάσει σημαντικά τηνtoιεράρχηση των χαρακτηριστικών. learning accuracy, and leading better model comprehensibility. Various studies show that some features can be removed without performance deterioration (Ng, 2004; Donoho, 3.Διαδικασία επιλογής Χαρακτηριστικών 2006). Feature selection has been an active field of research for decades in data mining, and has been widely applied to many fields such as genomic analysis (Inza et al., 2004), Στην προηγούμενη ενότητα είδαμε πώς μπορούμε να ταξινομήσουμε τα χαρακτηριστικά με text mining (Forman, 2003), image retrieval (Gonzalez and Woods, 1993; Swets and Weng, βάση την διακριτική ικανότητα τουtoκάθε ανάμεσα στιςinκλάσεις.Ωστόσο 1995), intrusion detection (Lee et al., 2000), nameχαρακτηριστικού a few. As new applications emerge recent many challenges requiring novel theories and methods addressing highείναιyears, ιδιαίτερα χρήσιμο arise να επιλέγουμε υποσύνολα συνδυασμών χαρακτηριστικών(δηλ. dimensional and complex data. Feature για selection for data of ultrahigh dimensionality (Fan διανύσματα χαρακτηριστικών) να πετύχουμε ακόμα καλύτερη διακριτική et ικανότητα.Επειδή al., 2009), steam data (Glocer et al., 2005), multi-task data (Liu et al., 2009; G. Obozinski η ιδέα να εξετάσουμε όλους του δυνατούς συνδυασμούς έχει and Jordan, 2006), and multi-source data (Zhao et al., 2008, 2010a) are among emerging απαγορευτική υπολογιστική πολυπλοκότητα(NP-hard), επιλέγουμε διαφορετικές μεθόδους. research topics of pressing needs. phase I

Feature Selection NO

Feature Subset Generation

Evaluation

Stop Criterion

Training Data

Test Data

Yes

Test Learning Model

ACC

Training Learning Model

Best Subset

Model Fitting/Performance Evaluation phase II

Figure 1: A unified view of a feature selection process

Σχήμα 3. Η διαδικασία επιλογής χαρακτηριστικών

Figure 1 presents a unified view for a feature selection process. A typical feature seΤο Σχήμα 2 παρουσιάζει μια ενιαία άποψη για μια διαδικασία επιλογής χαρακτηριστικών. lection process contains two phases: feature selection, and model fitting and performance Μία τυπική διαδικασία επιλογής χαρακτηριστικών περιλαμβάνει δύο φάσεις: την επιλογή evaluation. The feature selection phase contains three steps: (1) generating a candidate set χαρακτηριστικών και την τοποθέτηση του μοντέλου με αξιολόγηση των επιδόσεων. containing a subset of the original features via certain research strategies; (2) evaluating the candidate set and estimating the utility of the features in the candidate set. Based on the evaluation, some features in the candidate set may be discarded or added to the selected feature set according to their relevance; and (3) determining whether the current 5

Introduction to Feature Selection!

Page 5

Απαρτίζεται από 3 βήματα: (1) Δημιουργία ενός υποψήφιου σετ που περιέχει ένα υποσύνολο από τα αρχικά χαρακτηριστικά μέσω ορισμένων στρατηγικών έρευνας(βλ. προηγούμενες ενότητες) (2) Αξιολόγηση του υποψήφιου συνόλου και εκτίμηση της χρησιμότητας των χαρακτηριστικών στο σύνολο αυτό. Με βάση την αξιολόγηση, ορισμένα χαρακτηριστικά στο υποψήφιο σύνολο μπορεί να απορριφθούν ή να προστεθούν στο επιλεγμένο σύνολο χαρακτηριστικών. (3) Να καθοριστεί εάν το τρέχον σύνολο των επιλεγμένων χαρακτηριστικών είναι αρκετά καλό με τη χρήση ορισμένων κριτηρίων διακοπής. Αν είναι, ένας αλγόριθμος επιλογής χαρακτηριστικών θα επιστρέψει το σύνολο των επιλεγμένων χαρακτηριστικών, διαφορετικά, θα επαναλαμβάνεται μέχρι να ικανοποιηθεί το κριτήριο διακοπής. Ανάλογα με το πώς και πότε αξιολογείται η χρησιμότητα των επιλεγμένων χαρακτηριστικών, μπορούν να υιοθετηθούν διαφορετικές στρατηγικές που χωρίζονται σε 3 κατηγορίες: Filter,Wrapper και embedded μοντέλα. Filter Οι αλγόριθμοι του filter model παρέχουν γρήγορη εκτέλεση,αφού δεν περιλαμβάνουν επαναλήψεις και δεν βασίζονται σε ένα συγκεκριμένο ταξινομητή (classifier).ΈΈχουν απλή κατασκευή, η οποία χρησιμοποιεί συνήθως μια απλή στρατηγική αναζήτησης και ένα κριτήριο αξιολόγησης χαρακτηριστικών σχεδιάζεται με βάση ένα συγκεκριμένο κριτήριο.Στην μέθοδο αυτή ουσιαστικά για κάθε συνδυασμό χαρακτηριστικών επιλέγουμε κάποιο κριτήριο(π.χ Bhattacharrya distance,Divergence,Scatter Matrices) και επιλέγουμε το καλύτερο διάνυσμα συνδυασμού χαρακτηριστικών.Αξίζει να σημειωθεί ότι η κατάταξη των χαρακτηριστικών της προηγούμενης ενότητας είναι μία μέθοδος φίλτρου. Wrapper Η μεθοδολογία περιτυλίγματος προσφέρει τρόπο να επιλυθεί το πρόβλημα επιλογής χαρακτηριστικών ανεξάρτητα από την μηχανή εκμάθησης που έχουμε επιλέξει.Για κάθε συνδυασμό διανυσμάτων χαρακτηριστικών η εκτιμάται η πιθανότητα λανθασμένης ταξινόμησης και επιλέγουμε με βάση το μικρότερο σφάλμα.ΈΈχουμε αργή εκτέλεση λόγω των επαναλήψεων και τον επανεκπαιδεύσεων που απαιτούνται καθώς και έλλειψη γενικότητας ως προς τη μέθοδο αναγνώρισης, ωστόσο η μηχανή εκμάθησης μπορεί να θεωρηθεί μαύρο κουτί (black box) πράγμα που καθιστά την μέθοδο ιδανική και μπορούμε να την χρησιμοποιήσουμε οπουδήποτε. Embedded Οι αλγόριθμοι του ενσωματωμένου μοντέλου(embedded model) ενσωματώνουν την επιλογή χαρακτηριστικών ως μέρος του μοντέλου διαδικασίας τοποθέτησης/εκπαίδευσης, και η χρησιμότητα των χαρακτηριστικών λαμβάνεται με βάση την βελτιστοποίηση της συνάρτησης του μοντέλου μάθησης.Η μέθοδος αυτή δεν διαχωρίζει τα δεδομένα εκπαίδευσης σε σύνολο δεδομένων εκπαίδευσης και σε σύνολο δεδομένων επαλήθευσης.ΈΈτσι φτάνει γρηγορότερα στη λύση .

Introduction to Feature Selection! Filters,Wrappers,

and Embedded methods

All features

: thods

All features

@inf.ethz.ch

Filter

Feature subset Multiple Feature subsets

Predictor

Wrapper

urich.ibm.com

methods

Page 6

All features

Embedded method

Feature subset Predictor

Σχήμα 4. Οι μέθοδοι Filter,Wrapper & Embedded

Τόσο για τη μέθοδο φίλτρου όσο και την μέθοδο περιτυλίγματος έχουν προταθεί ορισμένες στρατηγικές, κάποιες από τις οποίες είναι βέλτιστες και υποβέλτιστες, τις οποίες όμως θα αναφέρουμε ονομαστικά αφού η περαιτέρω ανάλυση τους αφορά ένα άλλο μεγάλο ερευνητικό πεδίο αλγορίθμων. Οι υποβέλτιστες τεχνικές αναζήτησης περιλαμβάνουν την σειριακή αναζήτηση προς τα εμπρός, την σειριακή αναζήτηση προς τα πίσω και την μέθοδο κινητής αναζήτησης. Στην Sequential Forward Selection(SFS), οι μεταβλητές ενσωματώνονται σταδιακά σε όλο και μεγαλύτερα υποσύνολα, ενώ στο Sequential Backward Selection(SBS) αρχικά έχουμε ένα σύνολο όλων των μεταβλητών και σταδιακά εξαλείφονται αυτές που δεν μας ενδιαφέρουν.ΌΌλα αυτά ανάλογα με το κριτήριο που επιλέγουμε να ελέγξουμε.Στην μέθοδο κινητής αναζήτησης(Floating Search) έχουμε τη δυνατότητα να επανεξετάσουμε ένα αντικείμενο,ακόμα και αν έχει προστεθεί ή αφαιρεθεί,σε αντίθεση με τις προηγούμενες μεθόδους, καταπολεμώντας έτσι το αποκαλούμενο nesting effect. Wrappers

Οι βέλτιστες τεχνικές αναζήτησης χρησιμοποιούνται όταν έχουμε μονοτονικό κριτήριο Methods: χαρακτηριστικά τόσο μεγαλύτερη η τιμή του κριτηρίου). διάκρισης(όσο περισσότερα • Criterion: Measure feature subset ature subset 4. Επίλογος “usefulness” • Search: Search the space of all feature es (individual Κλείνοντας, καταλήγουμε στο συμπέρασμα ότι υπάρχουν πολλές καλές τεχνικές επιλογής subsets bsets of features) χαρακτηριστικών.Εντούτοις ο τομέας του Feature Selection είναι ακόμα σε πρώιμο στάδιο • Assessment: Use cross-validation ests και ενδείκνυται για έρευνα.Ο αυξανόμενος αριθμός δεδομένων θα αυξήσει την ζήτηση για την ανάπτυξη του συγκεκριμένου τομέα της επιλογής χαρακτηριστικών. ΊΊσως μάλιστα ο Results: τομέας αυτός να είναι η μόνη λογική επιλογή προκειμένου να καταπολεμηθεί σε μεγάλο • Can in principle find the most “useful” βαθμό η κατάρα της διαστασιμότητας. t overfitting features, but seful” features Φαίνεται λοιπόν ότι η• επιλογή χαρακτηριστικών Are prone to overfitting μπορεί να αυξήσει επιτυχώς την απόδοση ενός αλγόριθμου εκμάθησης στον τομέα της αναγνώρισης προτύπων, ενώ παραμένει και θα συνεχίσει να είναι ένα ενεργό πεδίο που διαρκώς θα εξελίσσεται για να απαντά σε νέες προκλήσεις.

Introduction to Feature Selection!

Page 7

ΒΙΒΙΛΙΟΓΡΑΦΙΑ S.Theodoridis,K.Koutroumbas, ”Pattern Recognition”,Elsevier,(2009) Isabelle Guyon, Andre ́ Elisseeff, “An Introduction to Variable and Feature Selection”, Journal of Machine Learning Research 3 (2003) H. Liu and L. Yu, “Toward Integrating Feature Selection Algorithms for Classification and Clustering,” IEEE Trans. Knowledge and Data Eng., vol. 17, no. 4, (2005) Luis Carlos Molina, Lluis Belanche, Angela Nebot.”Feature Selection Algorithms: A Survey and Experimental Evaluation”, Universitat Politecnica de Catalunya Edward R. Dougherty . “Feature-Selection Overfitting with Small-Sample Classifier Design”, Texas A&M University (2005) Huan Liu, Hiroshi Motoda, Rudy Setiono, Zheng Zhao. “Feature Selection: An Ever Evolving Frontier in Data Mining”, JMLR: Workshop and Conference Proceedings 10: 4-13 The Fourth Workshop on Feature Selection in Data Mining(2010) YongSeog Kim, ”Feature Selection in Supervised and Unsupervised Learning via evolutionary search”,University of Iowa(2001) TingYao Wu. ”Feature Selection in speech and speaker recognition”,(2009) Luis Talavera,”An evaluation of filter and wrapper methods for feature selection in categorical clustering” S.Theodoridis,A.Pikrakis,K.Koutroumbas,D.Cavouras. “Introduction to Pattern Recognition using Matlab”,Elsevier (2010)

http://en.wikipedia.org/wiki/Feature_selection http://www.cs.manchester.ac.uk/pgt/COMP61011/materials/slides/featureselection.pdf