Hand Gesture Recognition using Hidden Markov Model

Page 1

Hand Gesture Recognition using Hidden Markov Models Marios Bikos Student Number: 227323 Dpt of Electrical and Computer Engineering University of Patras,Greece Περίληψη— Η χρήση των χειρονομιών παρέχει μία ελκυστική εναλλακτική λύση στις δύσχρηστες συσκευές διεπαφών για την αλληλεπίδραση ΑνθρώπουΥπολογιστή.Αυτό έχει ωθήσει τους επιστήμονες να ασχοληθούν με την ερμηνεία των χειρονομιών χρησιμοποιώντας τεχνικές βασισμένες στην μηχανική όραση.Η αναγνώριση και η ερμηνεία της κίνησης του ανθρώπινου σώματος είναι ένα δύσκολο αλλά συναρπαστικό πρόβλημα. Αναγνωρίζοντας χειρονομίες σαν είσοδο οι υπολογιστές γίνοται προσβάσιμοι ακόμα και σε άτομα με σωματικά προβλήματα και κάνουν την αλληλεπίδραση πιο φυσική σε περιβάλλοντα βιντεοπαιχνιδιών ή ψηφιακών 3D κόσμων. Στην εργασία αυτή, θα παρουσιαστούν πρόσφατες προσεγγίσεις στην αναγνώριση χειρονομιών με έμφαση στις εφαρμογές που χρησιμοποιούν κρυμμένα μοντέλα Markov. Keywords— Hidden Markov gesture recognition, hand gestures

I.

Models(HMM),

Ε

Στην εποχή μας νέες συσκευές αλληλεπίδρασης που αξιοποιούν τις τεχνολογίες αναγνώρισης χειρονομιών, αναγνώρισης προσώπου, τους αισθητήρες επαφής και τις συσκευές εντοπισμού παρέχουν ευελιξία στον έλεγχο ρομπότ,την επεξεργασία κειμένου,την εικονική πραγματικότητα, το κείμενο επεξεργασίας, τα συστήματα ελέγχου αυτοκινήτων, τα βιντεοπαιχνίδια. Με την εξέλιξη τις τεχνολογίας η διαθεσιμότητα εξειδικευμένου hardware όπως αισθητήρες εικόνας και βάθους όχι μόνο δίνει ώθηση στο ερευνητικό πεδίο της αναγνώρισης χειρονομιών, αλλά το ενισχύει τόσο που προϊόντα προηγμένης τεχνολογίας κάνουν την εμφάνιση τους και στην καθημερινότητα μας.Η υιοθέτηση του ανθρώπινου τρόπου επικοινωνίας στην αλληλεπίδραση με την τεχνολογία είναι πολύ δελεαστική.Δεν είναι τυχαίο εξάλλου ότι το Microsoft Kinect [1] ένας αισθητήρας βάθους και rgb χρώματος που ξεκίνησε από το πεδίο των βιντεοπαιχνιδιών έγινε η συσκευή με τις ταχύτερες πωλήσεις στον κόσμο.

II.

Τ Α Χ

H αναγνώριση χειρονομιών είναι η διαδικασία κατά την οποία οι χειρονομίες οι οποίες γίνονται από τον χρήστη αναγνωρίζονται από τον δέκτη.Η αναγνώριση και η ερμηνεία των χειρονομιών απαιτεί από τη μηχανή την ικανότητα να μετρήσει τις δυναμικές ή στατικές παραμορφώσεις του χεριού, του βραχίονα ή ακόμα και άλλων μερών του ανθρωπίνου σώματος, τα οποία συμμετέχουν στην κίνηση. Σε κάθε σύστημα αναγνώρισης χειρονομιών το πρώτο στάδιο είναι η συλλογή δεδομένων από τον χρήστη.Οι πρώτες συσκευές συλλογής δεδομένων βασιζόντουσαν στη χρήση data gloves και καλωδίων, πράγμα που εμπόδιζε την φυσικότητα στην αλληλεπίδραση του χρήστη.Οι σημερινές προσεγγίσεις αξιοποιούν την χρήση βιντεοκάμερων και τεχνικών υπολογιστικής όρασης που καταγράφουν το αντικείμενο και με τεχνικές αναγνώρισης αναλύουν και ερμηνεύουν τις χειρονομίες. Πολλές και ποικίλες είναι οι προσεγγίσεις των ερευνητών στην αναγνώριση των χειρονομιών.Αυτά που διαφέρουν σε κάθε προσέγγιση είναι ο τρόπος με τον οποίο κάθε ερευνητής κατάφερε να συλλέξει δεδομένα και οι τεχνικές επεξεργασίας εικόνας που εφάρμοσε για να εξάγει χαρακτηριστικά.Ωστόσο οι περισσότερες εργασίες έχουν κάτι κοινό που δεν είναι άλλο από τα HMM για την τελική αναγνώριση της χειρονομίας. Οι νοηματικές χειρονομίες μπορούν να είναι πολύ σύνθετες, περιέχοντας ταυτόχρονες κινήσεις διάφορων σημείων, ωστόσο πρέπει να περιγραφούν στον υπολογιστή με τρόπο απλό και σαφή. Αρχικά, κάθε εφαρμογή, έχει ένα στάδιο εκπαίδευσης, στο οποίο συλλέγονται παραδείγματα διαφορετικών χειρονομιών και χρησιμοποιούνται για την εκπαίδευση των μοντέλων. Τα εκπαιδευμένα μοντέλα αναπαριστούν πλέον όλες τις χειρονομίες που το σύστημα είναι σε θέση να αναγνωρίζει.Επίσης, καθώς η χειρονομία είναι μια


εκφραστική κίνηση, είναι φυσικό να μπορεί να περιγραφεί από ένα ακολουθιακό μοντέλο. Με βάση αυτές τις εκτιμήσεις,το HMM είναι κατάλληλο για την αναγνώριση χειρονομίας. III.

αρχικοποιημένων παραμέτρων για την δημιουργία βάσης δεδομένων χειρονομιών. IV. Σ Υ Σ Α Χ

Ε  H M M

Τα κύρια στάδια και η γενική άποψη ενός συστήματος αναγνώρισης χειρονομιών είναι τα εξής:

Τα HMM έγιναν γνωστά το 1990 και γρήγορα εξελίχθηκαν στη δημοφιλέστερη μέθοδο αναγνώρισης χειρονομιών. Ένα HMM ορίζεται ως μία σειρά καταστάσεων.Από αυτές έχουμε την αρχική κατάσταση, μία σειρά από σύμβολα εξόδου και μία σειρά από μεταβολές καταστάσεων.Κάθε μεταβολή κατάστασης αναπαριστάται από την κατάσταση που ξεκινάει η μεταβολή,την κατάσταση στην οποία καταλήγει, το σύμβολο που που παράγεται και την πιθανότητα να έχει ληφθεί ή όχι η σωστή μεταβολή.

Μοντελοποίηση της χειρονομίας-χεριού

Ανάλυση της χειρονομίας(κίνηση ή όχι)

Αναγνώριση/Κατάταξη της χειρονομίας

Η πρώτη φάση ενός συστήματος αναγνώρισης χειρονομιών είναι η επιλογή ενός μαθηματικού μοντέλου προτύπου για την περιγραφή της χειρονομίας. Το μαθηματικό μοντέλο πρέπει να επιλεγεί έτσι ώστε να λαμβάνει υπόψη του τα χωρικά και χρονικά χαρακτηριστικά της χειρονομίας.Η επιλογή του διαδραματίζει έναν κεντρικό ρόλο στην τελική απόδοση του συστήματος, ενώ αυτόματα θέτει όρια στην ικανότητα αναγνώρισης.

Σε ένα σύστημα αναγνώρισης χειρονομιών, κάθε κατάσταση θα μπορούσε να αναπαριστά μία σειρά από πιθανές θέσεις του χεριού.Οι μεταβολές καταστάσεων αναπαριστούν την πιθανότητα μία συγκεκριμένη θέση του χεριού να μεταβληθεί σε μία άλλη.Το αντίστοιχο σύμβολο εξόδου αναπαριστά μία συγκεκριμένη στάση του χεριού και οι ακολουθίες των συμβόλων εξόδου αναπαριστούν μία χειρονομία. Για κάθε χειρονομία αρκεί να χρησιμοποιηθεί ένα ΗΜΜ και να τρέξει μία ακολουθία δεδομένων εισόδου σε κάθε ένα ΗΜΜ.Τα δεδομένα αυτά που προέρχονται από pixels συνήθως αναπαρίστανται με διανύσματα χαρακτηριστικών(feature vectors). Το ΗΜΜ με την μεγαλύτερη πιθανότητα καθορίζει την πιο πιθανή χειρονομία του χρήστη.

Μετά την επιλογή του μοντέλου περιγραφής χειρονομίας, ακολουθεί το στάδιο της ανάλυσης.Κατά τη διάρκεια του σταδίου αυτού υπολογίζονται οι παράμετροι του μοντέλου από χαρακτηριστικά γνωρίσματα της ακολουθίας των εικόνων(εξαγωγή χαρακτηριστικών-feature extraction) που εξάγονται από το βίντεο λήψης.Αυτές οι παράμετροι αποτελούν περιγραφή της θέσης ή της τροχιάς του χεριού και εξαρτώνται από το μοντέλο της προσέγγισης.Συχνα οι παράμετροι που χρησιμοποιούνται περιλαμβάνουν την ταχύτητα, την τοποθεσία και τον προσανατολισμό του χεριού [6], με τον τελευταίο να κρίνεται σημαντικότερος.Σημαντικά προβλήματα σε αυτό το στάδιο αποτελούν η ανίχνευση,ο εντοπισμός και η παρακολούθηση των χεριών, καθώς και η επιλογή των κατάλληλων χαρακτηριστικών της εικόνας(feature vector).

Ουσιαστικά to HMM ένα μαθηματικό μοντέλο στοχαστικής διαδικασίας που περιλαμβάνει 3 παραμέτρους λ=(Π,Α,Β), όπου το Π αντιπροσωπεύει το αρχικό διάνυσμα, το Α τον πίνακα μεταβολών και το Β τον πίνακα εκπομπής [9].Tα κύρια προβλήματα του ΗΜΜ είναι η αξιολόγηση, η αποκωδικοποίηση και η εκπαίδευση.Και τα 3 αυτά προβλήματα λύνονται με τους αλγορίθμους Forward-Backward, Viterbi και Baum-Welch αντίστοιχα [12] [11]. Επιπλέον το ΗΜΜ έχει 3 μοντέλα τοπολογιών.Πλήρης συνδεδεμένο ή Εργοδικό όπου κάθε κατάσταση μπορεί να επιτευχθεί από τις άλλες, Left-Right(LR) όπου κάθε κατάσταση μπορεί να πάει πίσω στον εαυτό της ή στις επόμενες καταστάσεις και το μοντέλο LRB που κάθε κατάσταση πάει είτε στον εαυτό της ή στην αμέσως επόμενη κατάσταση.Τα απομονωμένα και συνεχή μονοπάτια χειρονομιών αναγνωρίζονται από το διακριτό διάνυσμα και το ΗΜΜ Forward Αλγόριθμο που αντιστοιχεί στά μέγιστα μοντέλα χειρονομιών του μονοπατιού Viterbi.Επιπλέον, o BW χρησιμοποιείται για πλήρη εκπαίδευση των

Μετά τον υπολογισμό των παραμέτρων του μοντέλου, ακολουθεί η κατάταξη της χειρονομίας σε μία ομάδα και η αναγνώριση.Εδώ η ερμηνεία επιτυγχάνεται με τη χρήση κάποια αποκτημένης γνώσης από προεκπαίδευση του συστήματος πάνω σε διάφορα στιγμιότυπαπαραδείγματα.Λαμβάνεται υπόψην το σύνολο των αποδεκτών μοντέλων του συστήματος (αριθμός διαφορετικών χειρονομιών, που εξαρτάται από την ειδική εφαρμογή). Τέλος το σύστημα αξιολογείται από την ακρίβεια της αναγνώρισης(error rate), την ταχύτητα του, καθώς και από την μεταβλητότητα στον 2


αριθμό των διαφορετικών χειρονομιών που καλύπτει.

Α [1] Microsoft Corp, Redmond WA.Kinect for XBOX360 [2] F.Lardinois,http://techcrunch.com/2012/07/10/ imagine-cup-winners-quadsquad-enabletalk//,Imagine Cup 2012 [3] Noor Adnan I. and RafiqulZaman K., ”Survey on Various Gesture Recognition Technologies and Techniques”, International Journal of Computer Applications (0975 – 8887)Volume 50 – No.7, July 2012 [4] M. Tang, ”Recognizing Hand Gestures with Micorosoft’s Kinect”, 3rd ed. Paper written for Stanford’s CS228, 2010. [5] Mitra, S. and Acharya T. , ”Gesture Recognition: A Survey”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews,vol 37,Issue 3, pp. 311324,2007 [6] Elmezain M. ,Al-Hamadi A., Appenrodt J. and Michaelis B.,”A Hidden Markov Model-based continuous gesture recognition system for hand motion trajectory”, 19th International Conference on Pattern Recognition,ICPR, 2008. [7] M. Salleh, N. Saliza and Jais, Jamilin and Mazalan, Lucyantie and Ismail, Roslan and Yussof, Salman and Ahmad, Azhana and Anuar, Adzly and Mohamad, Dzulkifli, ”Hand gesture recognition using hidden markov models: a review on techniques and approaches.”, 2nd Malaysian Software Engineering Conference, 2006 [8] Hyeon-Kyu Lee and Kim J.H, ”An HMM-based threshold model approach for gesture recognition”, IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL. 21, NO. 10, October 1999 [9] E.Dermatas, ”Pattern Recognition II”, Lecture Notes in Pattern Recognition II, 1998 [10] Ho-Sub Yoon, Jung Soh, Yun-Mo Yang and Ejima, T., ”Hand Gesture Recognition Using Hidden Markov Models”, IEEE International Conference On Systems, Man, And Cybernetics, vol.5,pp. 4232-4235, 1997 [11] Yang J, Xu Y.S.”Hidden Markov model for gesture recognition.” Master thesis,The Robotics Institute Carnegie Mellon Univ Pittsburgh,1994 [12] Yamato J., Jun Ohya, Ishii K., ”Recognizing human action in time-sequential images using hidden Markov model”, IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1992.

V. Ε Η κατασκευή ενός αποδοτικού συστήματος αλληλεπίδρασης ανθρώπου-υπολογιστή είναι ένας σημαντικός στόχος της αναγνώρισης χειρονομιών.Πολλές εφαρμογές συστημάτων αναγνώρισης χειρονομιών συναντώνται στην εικονική πραγματικότητα, την αναγνώριση νοηματικής γλώσσας και τον έλεγχο ρομπότ.Στην εργασία αυτή έγινε μία έρευνα για τις τεχνικές που χρησιμοποιούνται σήμερα με έμφαση στο ΗΜΜ και μία βασική εισαγωγή σε οτιδήποτε χρειάζεται να γνωρίζει κάποιος που θέλει να ασχοληθεί με τον επιστημονικό χώρο αυτό.

3


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.