Meta a récemment annoncé deux nouvelles fonctionnalités basées sur l'intelligence artificielle (IA) pour l'édition de vidéos. La première, appelée Emu Video, permet de générer des vidéos de quatre secondes à partir d'une entrée textuelle et d'une image.
Meta a adopté une approche "factorisée" pour ce modèle, générant d'abord une image à partir d'un prompt textuel, puis utilisant le texte et l'image pour produire la vidéo. Emu Video est préféré par la plupart des utilisateurs par rapport à Make-A-Video, une précédente IA génératrice de vidéos de Meta, en raison de sa qualité et de sa fidélité au prompt textuel.
La seconde fonctionnalité, Emu Edit, facilite la modification de vidéos à l'aide de prompts textuels, visant à simplifier diverses tâches de manipulation d'images. Ce modèle, formé à partir de 10 millions d'images de synthèse, peut suivre précisément les instructions, assurant que les pixels sans rapport avec les instructions restent inchangés. Meta affirme que ce modèle affiche des résultats d'édition sans précédent en termes de fidélité des instructions et de qualité d'image.
Ces fonctionnalités, encore au stade de recherche, pourraient être utilisées pour créer des GIFs instantanés pour les discussions de groupe ou pour modifier des photos sans nécessiter de compétences techniques. Meta souligne cependant que ces outils ne visent pas à remplacer les artistes, mais plutôt à aider les utilisateurs à s'exprimer de manière différente.