Midjourney, l'outil de création d'images génératives peut-être mieux connu pour fonctionner à l'intérieur d'un serveur Discord, déploie ses ailes d'IA. Les créateurs de Midjourney ont annoncé mardi qu'ils prévoient d'introduire un modèle «texte vers vidéo» dans les prochains mois.
La société commencera à former ses modèles vidéo à partir de janvier, a déclaré le PDG David Holz lors d'une session «Office Hour» sur Discord. Cette évolution représente une progression naturelle pour la plateforme, en s'appuyant sur un modèle d'image mature pour stimuler la dynamique concurrentielle de l'industrie de la vidéo générative.
Les notes de la session Discord comprenaient des ajustements prévus pour V6 Niji, le modèle générateur de manga/anime de Midjourney, ainsi que des corrections de cohérence pour la prochaine version officielle de Midjourney V6. La société a également écrit que sa liste de tâches prévoit de «commencer la formation de nouveaux modèles vidéo», qui pourraient potentiellement être prêts «dans quelques mois».
Aucune information supplémentaire sur le modèle n'a été partagée par Holz ou l'équipe de Midjourney.
Midjourney est connu pour mettre l'accent sur la qualité et l'expérience utilisateur plutôt que sur la vitesse brute, même si cela signifie être en retard par rapport à ses concurrents. La société a déployé des améliorations telles que l'inpainting et l'outpainting plusieurs mois après que ces fonctionnalités soient devenues de facto sur d'autres plateformes comme Stable Diffusion, et son récent incursion dans la génération de texte rudimentaire est venue après qu'elle soit devenue une capacité courante dans d'autres modèles comme Dall-E 3, SDXL, ou même certains générateurs moins populaires comme Ideogram ou IF.
Entrer dans un domaine encombré
Cette incursion dans la vidéo intervient également après les sorties de la concurrence. Stability AI a récemment annoncé Stable Video Diffusion ; Meta vient de présenter son générateur de vidéos EMU, et des modèles existants comme Pika et Runway ML marquent leur territoire, laissant l'entrée de Midjourney émerger dans un paysage concurrentiel solide. De plus, d'autres générateurs d'images comme Leonardo AI ont déjà mis en place des capacités de génération de vidéos, intensifiant davantage la course.
La récente mise à jour v6 de Midjourney, vantant une amélioration du suivi des instructions et des images plus réalistes, est le dernier effort de l'entreprise pour rester pertinente et compétitive. Si ses modèles montrent une certaine cohésion, ils pourraient gagner du terrain dans un domaine encore naissant, même avec des modèles encore loin d'être parfaits.
Les implications de ces développements vont bien au-delà d'une course d'entreprise pour la suprématie. Alors que Midjourney et d'autres innove et peaufine leurs offres, les industries créatives et médiatiques se trouvent au seuil d'une ère transformative. La capacité de générer, de manipuler et d'interagir avec du contenu vidéo grâce à l'IA ouvre de nombreuses possibilités - de faciliter la tâche des artistes et des annonceurs à potentiellement remodeler notre perception de la réalité.
Édité par Ryan Ozawa.