Νέο πρόγραμμα τεχνητής νοημοσύνης με Έλληνα επικεφαλής

Συντάκτης: Μαρία Βαγδούτη

Μία ομάδα ερευνητών στη Βρετανία ξεκίνησαν μία έρευνα που μπορεί να φέρει επανάσταση στον τρόπο που επικοινωνούν βαρήκοοι και κωφοί. Η ομάδα ερευνητών με επικεφαλής τον Έλληνα υποψήφιο διδάκτορα στη τεχνητή νοημοσύνη Γιάννη Ασσάελ δημιούργησαν ένα πρόγραμμα τεχνητής νοημοσύνης που μπορεί να διαβάζει τα ανθρώπινα χείλη εξ’ αποστάσεως, με ακρίβεια μεγαλύτερη από ποτέ.

Για εκατομμύρια ανθρώπους η μόνη εναλλακτική τους για μία φυσιολογική επικοινωνία είναι η νοηματική γλώσσα, η οποία απαιτεί ειδίκευση και από τις δύο πλευρές και παρουσιάζει δυσκολίες. Αλλά και το διάβασμα των χειλιών δεν είναι καθόλου ευκολότερο. Δημιουργώντας  το LipNet οι επιστήμονες που το εισηγούνται προσφέρουν πολλές πρακτικές εφαρμογές για τα άτομα αυτά.

Το LipNet

Οι κεντρικοί ερευνητές (Ασσάελ και Μπρένταν Σίλινγκφορντ) έκαναν σχετική προδημοσίευση στο arXiv υποστηρίζοντας ότι οι αλγόριθμοι που δημιούργησαν για την δημιουργία του προγράμματος, είναι περισσότερο εξελιγμένοι από οποιαδήποτε ανάλογη απόπειρα του παρελθόντος και θα αποφέρουν καλύτερα αποτελέσματα ακόμη και από επαγγελματίες που ειδικεύονται στην ανάγνωση χειλιών. Το σύστημα βασίζεται στα τεχνητά νευρωνικά δίκτυα, δηλαδή σε μια ομάδα αλγόριθμων που ο καθένας εκτελεί ένα διαφορετικό και απλούστερο έργο, ενώ ταυτόχρονα όλοι μαζί συνδέονται και συνεργάζονται για να επεξεργασθούν τις πληροφορίες, περίπου όπως κάνουν οι νευρώνες του ανθρώπινου εγκεφάλου, με τελικό αποτέλεσμα το διάβασμα των κινήσεων των χειλιών και την μετάφραση των κινήσεων αυτών σε λέξεις.

______________________

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ: Μπαίνοντας στον κόσμο της Εκπαιδευτικής Ρομποτικής!

______________________

Η δημιουργία αυτών των αλγορίθμων μέχρι τώρα ήταν μία εξαιρετικά δύσκολη διαδικασία. Γι’ αυτό οι ερευνητές αποφάσισαν να αφήσουν το σύστημα να «μάθει» μόνο του τις κινήσεις των χειλιών και να συνδυάσει με το λογισμικό του την αντιστοιχία κινήσεων, φωνημάτων και τελικά λέξεων. Συγκεκριμένα τροφοδότησαν το σύστημα με περίπου 140.000 ώρες βίντεο  από το youtube, τα οποία έδειχναν ανθρώπους να μιλάνε στα αγγλικά, καθώς και με τα σχετικά απομαγνητοφωνημένα κείμενα.

Νέο πρόγραμμα τεχνητής νοημοσύνης με Έλληνα επικεφαλής

Παράλληλα, δημιούργησαν έναν αγωγό επεξεργασίας των βίντεο, ο οποίος χαρτογραφούσε τις κινήσεις για να σταθεροποιήσει τα χείλη και τις σειρές των φωνημάτων. Αν αυτή η εφαρμογή τελειοποιηθεί και μπορέσουν να την τοποθετήσουν σε ηλεκτρονικές συσκευές, όπως στα iphone, θα αποτελέσει μεγάλη διευκόλυνση για όσους αντιμετωπίζουν κάποια δυσκολία ή αναπηρία που σχετίζεται με την ακοή.

Ποσοστά επιτυχίας

Αφού ολοκληρώθηκε η διαδικασία της «αυτοεκπαίδευσης» του συστήματος αποφάσισαν να το δοκιμάσουν με ένα βίντεο διάρκειας 37 λεπτών, το οποίο δεν είχαν ξαναδείξει στο LipNet. Στις μετρήσεις το πρόγραμμα είχε ποσοστό επιτυχίας 69% και έσφαλε μόλις στο 41% των λέξεων. Συγκριτικά, ακόμη και όσοι ειδικεύονται στο διάβασμα των χειλιών είχαν ποσοστό αποτυχίας 92,9%, υποβαλλόμενοι στο ίδιο τεστ. Η μέθοδός τους είναι μία σημαντική βελτίωση σε σχέση με παραλλαγές του LipNet και του Watch, του Attend και του Spell, προγράμματα τα οποία είχαν ποσοστό λάθους  ανάμεσα σε 89,8% και 76,8%.

Στην έρευνα συμμετέχουν οι : Brendan Shillingford, Yannis Assael, Matthew W. Hoffman, Thomas Paine, Cían Hughes, Utsav Prabhu, Hank Liao, Hasim Sak, Kanishka Rao, Lorrayne Bennett, Marie Mulville, Ben Coppin, Ben Laurie, Andrew Senior και Nando de Freitas

Συντάκτης: Μαρία Βαγδούτη,

Influence:

Αρθρογράφος του flowmagazine.gr