Το ερευνητικό εργαστήριο τεχνητής νοημοσύνης DeepMind της Google εργάζεται πάνω σε μια νέα τεχνολογία που μπορεί να παράγει soundtracks, ακόμη και διαλόγους, για να συνοδεύει τα videos. Το εργαστήριο μοιράστηκε την πρόοδό του στο project της τεχνολογίας video-to-audio (V2A), η οποία μπορεί να συνδυαστεί με το Google Veo και άλλα εργαλεία δημιουργίας video, όπως το Sora του OpenAI.
Στην ανάρτησή της στο blog, η ομάδα της DeepMind εξηγεί ότι το σύστημα μπορεί να κατανοήσει τα ακατέργαστα pixels και να συνδυάσει αυτές τις πληροφορίες με προτροπές κειμένου για να δημιουργήσει ηχητικά εφέ για ό,τι συμβαίνει στην οθόνη. Να σημειωθεί ότι το εργαλείο μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία soundtrack για παραδοσιακό υλικό, όπως βωβές ταινίες και οποιοδήποτε άλλο βίντεο χωρίς ήχο.
Οι ερευνητές της DeepMind εκπαίδευσαν την τεχνολογία σε βίντεο, ηχητικά αρχεία και σχόλια που δημιουργούνται από την AI και περιέχουν λεπτομερείς περιγραφές ήχων και απομαγνητοφωνήσεις διαλόγων. Είπαν ότι με αυτόν τον τρόπο, η τεχνολογία έμαθε να συνδέει συγκεκριμένους ήχους με οπτικές σκηνές.
Όπως σημειώνει το TechCrunch, η ομάδα της DeepMind δεν είναι η πρώτη που κυκλοφορεί ένα εργαλείο AI που μπορεί να παράγει ηχητικά εφέ – η ElevenLabs κυκλοφόρησε πρόσφατα επίσης ένα – και δεν θα είναι η τελευταία. “Η έρευνά μας ξεχωρίζει από τις υπάρχουσες λύσεις μετατροπής βίντεο σε ήχο επειδή μπορεί να κατανοήσει τα ακατέργαστα pixels και η προσθήκη προτροπής κειμένου είναι προαιρετική“, γράφει η ομάδα.
Οι ερευνητές παραδέχονται ότι εξακολουθούν να προσπαθούν να αντιμετωπίσουν τους υπάρχοντες περιορισμούς της τεχνολογίας V2A, όπως η πτώση της ποιότητας του ήχου της εξόδου που μπορεί να συμβεί αν υπάρχουν παραμορφώσεις στο βίντεο της πηγής. Επίσης, εξακολουθούν να εργάζονται για τη βελτίωση του συγχρονισμού των χειλιών για τους παραγόμενους διαλόγους. Επιπλέον, δεσμεύονται να υποβάλουν την τεχνολογία σε “αυστηρές αξιολογήσεις και δοκιμές ασφαλείας” προτού τη διαθέσουν στον κόσμο.
[via]
Πηγή