Meta a présenté le vendredi 4 octobre Movie Gen, son nouvel outil d’intelligence artificielle (IA) générative, permettant de créer des vidéos à partir de texte ou d’images, comme le proposent déjà d’autres pionniers de l’IA. Cette interface est son troisième modèle du genre, après une première mouture en juillet 2022 et une deuxième en novembre 2023.
Aucune de ces trois interfaces n’a été rendue accessible au public. Elles sont testées à ce stade par des créateurs et des réalisateurs qui évaluent Movie Gen et contribuent à améliorer le logiciel. Meta n’a pas donné de date de mise en ligne, se contentant de publier des vidéos de démonstration et un article de recherche décrivant son modèle.
Les modèles de langage sont des logiciels appuyés sur d’immenses bases de données, qui leur permettent de générer du contenu, texte, image, vidéo, son ou code informatique en réponse à une demande formulée en langage courant.
Movie Gen peut produire une vidéo à partir d’une requête (prompt) écrite, mais aussi sur la base d’une simple photo. Le modèle propose également d’ajouter une bande-son à la vidéo, sur le même principe de demande en langage courant. Dans la petite séquence publiée sur le site de Meta, une phrase suffit pour habiller la vidéo d’un quad roulant dans le désert avec un son de moteur rugissant et un air de guitare.
Meta laisse entendre qu’une déclinaison de Movie Gen pourrait être un jour utilisable via ses réseaux sociaux Instagram et Facebook, ou encore en passant par la messagerie WhatsApp. Le groupe prend notamment l’exemple d’une vidéo qui serait éditée grâce à des indications en langage courant avant d’être publiée sur les réseaux sociaux.
Meta n’est pas le premier acteur de l’IA a mettre au point un modèle de génération de vidéo. Runway, de la start-up Runway AI, permet, à partir d’une demande écrite, de créer un plan de quelques secondes, de transformer une série d’images fixes en courte vidéo, ou de remodeler une séquence existante pour transformer, par exemple, une photo en un tableau.
En février, OpenAI a également lancé sa version, baptisée Sora, tandis que Google travaille à un modèle appelé Lumiere. Mais Meta affirme que «Movie Gen est supérieur à des modèles similaires de l’industrie lorsque sa production est évaluée par des humains».