Η Microsoft δημοσίευσε μια νέα μελέτη που παρουσιάζει το VASA, ένα framework για τη δημιουργία ρεαλιστικών ομιλούντων προσώπων. Οι ερευνητές παρουσίασαν το μοντέλο τους, που ονομάστηκε VASA-1, το οποίο μπορεί να παράγει ρεαλιστικά video με βάση μόνο μία στατική εικόνα και ένα απόσπασμα ομιλίας.
Τα αποτελέσματα είναι εντυπωσιακά και ξεπερνούν όλα τα προηγούμενα εργαλεία που χρησιμοποιούν παραγωγική Τεχνητή Νοημοσύνη για την παραγωγή ρεαλιστικών deepfakes. Αυτό που παρουσιάζει ιδιαίτερο ενδιαφέρον στο VASA-1 είναι η συνολική του ικανότητα να μιμείται φυσικές εκφράσεις προσώπου, ένα ευρύ φάσμα συναισθημάτων και η ικανότητα συγχρονισμού χειλιών με πολύ λίγα τεχνουργήματα.
Οι ερευνητές παραδέχονται ότι το μοντέλο – όπως και όλα τα άλλα μοντέλα – εξακολουθεί να δυσκολεύεται με μη άκαμπτα στοιχεία, όπως τα μαλλιά. Ωστόσο, ακόμη και σε αυτόν τον τομέα, το μοντέλο αποδίδει πάνω από το μέσο όρο, αμβλύνοντας ένα από τα γνωστά σημεία προειδοποίησης κατά τον εντοπισμό ενός μη αυθεντικού, ψεύτικου video.
Σύμφωνα με τη Microsoft, ο θεμέλιος τεχνικός λίθος είναι ένα καινοτόμο ολιστικό μοντέλο δυναμικής του προσώπου και δημιουργίας κινήσεων του κεφαλιού που λειτουργεί σε έναν εκφραστικό και διαχωρισμένο πλασματικό χώρο για το πρόσωπο. Το VASA-1 προσφέρει επίσης αποτελεσματικότητα σε πραγματικό χρόνο:
Η μέθοδός μας παράγει καρέ video μεγέθους 512 × 512 σε 45fps στην offline λειτουργία επεξεργασίας πακέτων και μπορεί να υποστηρίξει έως και 40fps στην online λειτουργία streaming με προηγούμενη καθυστέρηση μόλις 170ms, που αξιολογήθηκε σε έναν desktop PC με μία μόνο GPU NVIDIA RTX 4090
Το εργαλείο που βασίζεται στο νέο μοντέλο είναι πολύ εύκολο στη χρήση και προσφέρει ακόμη και τη δυνατότητα ελέγχου των “προαιρετικών σημάτων ως συνθήκη”, πράγμα που σημαίνει ότι ο χρήστης μπορεί να ορίσει μια κύρια κατεύθυνση του βλέμματος των ματιών, την απόσταση του κεφαλιού και τις αντισταθμίσεις των συναισθημάτων:
Το VASA-1 διαχειρίζεται επίσης μη ρεαλιστικές εισόδους, όπως η τέχνη. Επομένως, μπορεί ουσιαστικά να ζωντανέψει και πίνακες ζωγραφικής.
Το μοντέλο μπορεί επίσης να κάνει τις φωτογραφίες να τραγουδούν, να ραπάρουν ή να μιλούν σε άλλες γλώσσες εκτός των αγγλικών. Ως ένα από τα παραδείγματα, η Microsoft παρουσίασε τη Μόνα Λίζα να ραπάρει:
Είναι σημαντικό να τονιστεί η δυνητική βλάβη που θα μπορούσε να προκαλέσει μια τέτοια τεχνολογία όταν χρησιμοποιείται για την παραγωγή περιεχομένου που μιμείται πραγματικούς ανθρώπους, όχι μόνο πολιτικούς και διασημότητες, αλλά και απλούς πολίτες. Πάντως, οι ερευνητές της Microsoft έχουν επίγνωση του κινδύνου:
Δεν σκοπεύουμε να κυκλοφορήσουμε ένα online demo, API, προϊόν, πρόσθετες λεπτομέρειες υλοποίησης ή οποιεσδήποτε σχετικές προσφορές μέχρι να βεβαιωθούμε ότι η τεχνολογία θα χρησιμοποιηθεί υπεύθυνα και σύμφωνα με τους κατάλληλους κανονισμούς.
Η Microsoft αναγνωρίζει την πιθανότητα κακής χρήσης. Ωστόσο, υπογραμμίζει επίσης τα πιθανά οφέλη της τεχνολογίας, που κυμαίνονται από την ενίσχυση της εκπαιδευτικής ισότητας, τη βελτίωση της προσβασιμότητας για άτομα με προβλήματα επικοινωνίας και την προσφορά συντροφιάς ή θεραπευτικής υποστήριξης σε όσους το έχουν ανάγκη.
[Microsoft]