Un modèle de génération de vidéos à grande échelle développé par la Chine est disponible pour une utilisation mondiale

Vidu, un modèle de génération de vidéo à grande échelle développé par la société chinoise d’IA ShengShu Technology et l’Université Tsinghua, qui permet la génération de texte en vidéo et d’image en vidéo, est récemment devenu disponible pour une utilisation mondiale.

Vidu est capable de créer des clips de 4 secondes en 30 secondes et peut générer des vidéos jusqu’à 32 secondes de long en une seule instance.

« Vidu peut simuler le monde physique réel, en créant des scènes détaillées qui respectent les lois physiques, telles que des effets d’éclairage et d’ombre naturels, ainsi que des expressions faciales complexes. De plus, il peut générer un contenu surréaliste avec profondeur et complexité », a déclaré Zhu Jun, directeur adjoint de l’Institut Tsinghua d’intelligence artificielle.

Zhu a ajouté que pour différents genres comme la science-fiction, la romance et l’animation, Vidu peut produire des scènes qui capturent l’essence de chaque style, et il peut également créer des effets cinématographiques de haute qualité, tels que de la fumée et des reflets d’objectif.

Le modèle d’IA peut gérer différents types de prises de vue, notamment les plans d’ensemble, les gros plans et les plans moyens, et peut produire sans effort des effets tels que des prises de vue longues, des mises au point et des transitions de scène fluides.

Les utilisateurs peuvent télécharger des portraits ou des images de personnages personnalisés et utiliser des descriptions textuelles pour demander aux personnages d’effectuer n’importe quelle action dans n’importe quelle scène. Cette fonctionnalité simplifie le processus de production vidéo et améliore la liberté créative.

L’entreprise a déclaré que l’architecture de base de Vidu avait été proposée dès 2022. Le modèle d’IA a été dévoilé lors du Forum Zhongguancun 2024 à Pékin en avril, deux mois après qu’OpenAI a annoncé son modèle vidéo Sora. Mais Vidu est resté discret depuis le forum.

Au cours des mois qui ont suivi, des outils similaires tels que le modèle vidéo génératif Kling de Kuaishou et la grande famille de modèles linguistiques ChatGLM ont été ouverts aux utilisateurs.

(Avec la contribution de Xinhua)

Notre média