Η Meta παρουσίασε το δικό της μοντέλο δημιουργικής τεχνητής νοημοσύνης, αλλά αντί να δημιουργεί εικόνες όπως το Dall-E ή να γράφει απαντήσεις όπως το ChatGPT, αυτό εστιάζει στη δημιουργία ήχου. Με την ονομασία “Voicebox”, το εργαλείο τεχνητής νοημοσύνης της Meta μπορεί να παράγει άμεσα ηχητικά κλιπ τα οποία προσομοιάζουν την ανθρώπινη ομιλία. Στη συνέχεια, πηγαίνει ένα βήμα παραπέρα και προσφέρει δυνατότητες όπως η αφαίρεση θορύβου και η μετάφραση σε έξι διαλέκτους.
Μία από τις πιο εντυπωσιακές ικανότητες του Voicebox είναι η εκκαθάριση του θορύβου από ένα κλιπ ήχου. Για παράδειγμα, εάν ένα ηχητικό κλιπ στο οποίο ακούγεται ένα άτομο να μιλάει περιλαμβάνει και μια κόρνα αυτοκινήτου, το μοντέλο τεχνητής νοημοσύνης αφαιρεί το θόρυβο και επιστρέφει σχεδόν κρυστάλλινο ήχο στην ομιλία. Είναι σχεδόν σαν το εργαλείο Magic Eraser της Google, το οποίο αφαιρεί ανεπιθύμητα αντικείμενα από μια φωτογραφία και στη συνέχεια εκτελεί έξυπνη συμπλήρωση εικονοστοιχείων, ώστε τα στοιχεία που έχουν αφαιρεθεί να συνδυάζονται άψογα με το περιβάλλον. Το Voicebox μπορεί επίσης να εκτελέσει δειγματοληψία ομιλίας σε πολλές γλώσσες και επί του παρόντος προσφέρει υποστήριξη για αγγλικά, γαλλικά, γερμανικά, ισπανικά, πολωνικά και πορτογαλικά. Χάρη στις γλωσσικές του ικανότητες, το Voicebox μπορεί να επιστρέψει ένα κλιπ ήχου στην προτιμώμενη γλώσσα, ακόμη και αν η εισαγωγή κειμένου είναι σε άλλη γλώσσα. Αυτό θα μπορούσε να φανεί χρήσιμο για συνομιλίες όπου υπάρχουν γλωσσικά εμπόδια.
Η Google προσφέρει ήδη αυτή την ευκολία απευθείας στα αυτιά σας, αν έχετε στην κατοχή σας ένα από τα πρόσφατα ακουστικά Pixel Buds TWS και ένα τηλέφωνο Pixel. Η Meta έχει κάνει αξιοσημείωτη δουλειά και σε αυτόν τον τομέα, χάρη στα δικά της ερευνητικά μοντέλα Massively Multilingual Speech AI που μπορούν να κατανοήσουν πάνω από 4.000 ομιλούμενες γλώσσες από όλο τον κόσμο.
Το Voicebox βασίζεται σε μια νέα μέθοδο εκπαίδευσης που ονομάζεται Flow Matching, η οποία υποστηρίζεται ότι προσφέρει υψηλότερη αποτελεσματικότητα σε εργασίες μετατροπής κειμένου σε ομιλία και επιστρέφει υψηλότερο ποσοστό ηχητικής ομοιότητας σε σύγκριση με το αρχικό υλικό εκπαίδευσης. Σε σύγκριση με τα ανταγωνιστικά μοντέλα που υπάρχουν, η Meta λέει ότι το Voicebox μειώνει το ποσοστό σφάλματος από κείμενο σε ομιλία από 10,9% σε 5,2%. Επιτρέπει μάλιστα και τη μεταφορά του ύφους από τη μία γλώσσα στην άλλη, κάνοντας το αποτέλεσμα να ακούγεται πιο ρεαλιστικό. Αλλά η πιο εντυπωσιακή ικανότητα στο οπλοστάσιο του Voicebox είναι η προσέγγιση μάθησης “zero shot”, που σημαίνει ότι δεν χρειάζεται να εκπαιδευτεί σε μια τεράστια προσωρινή μνήμη δεδομένων εκπαίδευσης για να κάνει τη δουλειά του. Το μόνο που χρειάζεται είναι ένα ηχητικό απόσπασμα δύο δευτερολέπτων και στη συνέχεια θα μάθει τα πάντα από αυτό, από τον ξεχωριστό τόνο μέχρι τις προσωπικές παύσεις – πριν αρχίσει να παράγει νέα ηχητικά αποσπάσματα με παρόμοιο ηχητικό προφίλ.
Για σύγκριση, το μοντέλο τεχνητής νοημοσύνης Vall-E της Microsoft χρησιμοποιεί ένα ηχητικό κλιπ τριών δευτερολέπτων για να εκπαιδευτεί. Η Meta λέει ότι το μοντέλο παραγωγής κειμένου σε ομιλία είναι ταχύτερο από το Vall-E. Ακριβώς όπως η Microsoft, η οποία ανέστειλε τη δημόσια κυκλοφορία του Vall-E επικαλούμενη κινδύνους κατάχρησης, η Meta ακολουθεί παρόμοια προσέγγιση με το Voicebox.
“Αναγνωρίζουμε ότι αυτή η τεχνολογία ενέχει τη δυνατότητα κακής χρήσης και την πιθανότητα πρόκλησης ακούσιας βλάβης”
υποστηρίζει η Meta, προσθέτοντας ότι θέλει να υιοθετήσει μια υπεύθυνη προσέγγιση στην καινοτομία της τεχνητής νοημοσύνης. Η εταιρεία δημοσίευσε επίσης ένα research paper στο οποίο έχει τεκμηριώσει την κατασκευή ενός μοντέλου ταξινόμησης που μπορεί να διακρίνει μεταξύ του ήχου που παράγεται από το Voicebox και ενός αυθεντικού κλιπ στο οποίο μιλάει κάποιος άνθρωπος.