Idéogramme IA, une startup fondée par d'anciens ingénieurs de Google aux côtés de membres d'institutions prestigieuses telles que l'UC Berkeley, l'Université Carnegie Mellon et l'Université de Toronto, a annoncé la sortie de la première version complète de son générateur d'images éponyme.
«Nous sommes ravis de sortir Idéogramme 1.0, notre modèle texte-image le plus avancé à ce jour», a déclaré Idéogramme IA dans un article de blog officiel. «Formé à partir de zéro comme tous les modèles Idéogramme, Idéogramme 1.0 offre un rendu textuel de pointe, un réalisme photo inégalé et une adhérence rapide, ainsi qu'une nouvelle fonctionnalité appelée Magic Prompt qui vous aide à rédiger des instructions détaillées pour de belles images créatives.»
La sortie s'accompagne de la nouvelle d'une levée de fonds de série A de 80 millions de dollars menée par Andreessen Horowitz, ainsi que Redpoint Ventures, Pear VC et SV Angel.
Happy to share that Ideogram raised $80 million in series A funding to help people become more creative through generative AI! Thanks to @a16z for leading the round and @Redpoint, @pearvc, @IndexVentures, @svangel for participating!
Ideogram 1.0 will improve considerably soon!
— Mohammad Norouzi (@mo_norouzi) February 29, 2024
Decrypt a pu tester le modèle et les affirmations d'Ideogram AI ne sont pas exagérées - une comparaison côte à côte peut être trouvée ci-dessous. La version un d'Ideogram est une nette amélioration par rapport à ses prédécesseurs v0.1 et v0.2 : elle excelle dans le respect des délais, la qualité de l'image et les capacités de génération de texte.
Le modèle n'est pas open source, donc il y a une visibilité limitée sur son fonctionnement interne et aucun article de recherche pour l'évaluer. Mais les résultats obtenus avec le modèle parlent d'eux-mêmes, le positionnant potentiellement comme le meilleur modèle actuellement disponible - du moins jusqu'à ce que Stable Diffusion 3 soit publiquement disponible.
Le nouveau modèle est sans doute le générateur d'images le plus performant en termes de capacités textuelles, générant des chaînes de texte plus longues avec moins d'erreurs que Dall-E 3 ou MidJourney. Le niveau gratuit actuel lui donne également un avantage sur des concurrents comme Dall-E 3 et MidJourney, ce dernier n'ayant pas de niveau gratuit. Microsoft Copilot utilise également Dall-E 3, mais il ne génère que des images carrées 1:1, tandis qu'Ideogram prend en charge un ensemble plus large de ratios d'aspect.
Ideogram propose également deux plans payants de 7 $ et 15 $ par mois, qui donnent accès à plus de 400 générations par jour ainsi que d'autres avantages comme un éditeur d'images, des téléchargements de meilleure qualité, img2img - qui permet des modifications ou des variations sur une image existante - et des générations privées. Toutes les couches inférieures affichent les images demandées publiquement.
Introducing Ideogram 1.0: the most advanced text-to-image model, now available on https://t.co/Xtv2rRbQXI!
This offers state-of-the-art text rendering, unprecedented photorealism, exceptional prompt adherence, and a new feature called Magic Prompt to help with prompting. pic.twitter.com/VOjjulOAJU
— Ideogram (@ideogram_ai) February 28, 2024
Ideogram est capable de comprendre de longues instructions, de rivaliser avec Stable Diffusion 3 et de battre tous les autres générateurs d'images dans ce domaine.
Une des fonctionnalités phares d'Ideogram est la «Magie de l'instruction», qui peut être activée ou désactivée. Cette fonctionnalité analyse l'instruction et l'améliore pour créer des images de meilleure qualité, donnant essentiellement au modèle la capacité de comprendre le langage naturel comme Dall-E 3. Cependant, Ideogram est plus polyvalent car cette fonctionnalité est facultative. Elle est toujours activée avec ChatGPT Plus, ce qui entraîne parfois des inexactitudes.
Enfin, Ideogram est moins censuré de manière agressive que MidJourney et Dall-E 3, et est jusqu'à présent capable de générer des images de personnes célèbres, des logos d'entreprise et des styles artistiques. Il ne va pas complètement dans le NSFW, mais il est plus discret en ce qui concerne la censure des invitations.
Et les testeurs précoces semblent préférer Ideogram aux autres modèles. «En utilisant un protocole d'évaluation comme celui de DALL·E 3, nous constatons que les évaluateurs humains préfèrent Ideogram 1.0 à DALL·E 3 et Midjourney V6 en termes d'alignement des invitations, de cohérence des images, de préférence globale et de qualité de rendu du texte», a déclaré la start-up.
Comparaison côte à côte : Ideogram vs MidJourney vs Dall-E 3
Decrypt a testé les capacités d'Ideogram et les a comparées à ses principaux concurrents, MidJourney et Dall-E 3. Stable Diffusion 3 et le ImageFX de pointe de Google ne sont pas évalués ici car SD3 n'est pas encore sorti et ImageFX n'est pas largement disponible.
Génération de longues chaînes de texte
Prompt: Un Androïde futuriste dans une ville cyberpunk avec un panneau qui dit, «Ne soyez pas en retard dans la tendance de l'IA : Emerge par Decrypt»
Ideogram AI a pu représenter à la fois l'esthétique demandée et le texte. Cependant, il y avait une faute de frappe, générant «thee» au lieu de «the.»
MidJourney n'a pas pu générer de texte cohérent du tout et s'est concentré sur la création d'un Androïde futuriste avec des détails. Il est le sujet principal de toute la composition. La ville n'est pas du tout cyberpunk.
Dall-E 3 se situe au milieu. Il a pu générer le robot futuriste, la ville est cyberpunk, mais le panneau ne comportait pas le mot «Emerge.»
Fait intéressant, Ideogram a compris que le robot était dans la ville et associé au panneau, tandis que Dall-E a supposé que le panneau faisait partie du paysage urbain.
Longs messages et capacités spatiales
Promp : Une scène surréaliste et intrigante mettant en scène un chat perché sur le dessus d'une télévision à côté d'un panneau portant l'inscription «Emerge». En arrière-plan, un androïde futuriste se tient d'un côté et un astronaute de l'autre. Les murs de la pièce sont ornés d'une image frappante d'une molécule et d'une chaîne d'ADN.
Idéogramme était de loin le meilleur générateur global. Il a compris chaque partie de la demande, a généré le texte sans fautes de frappe, a compris l'emplacement de chaque élément avec le chat sur le dessus d'une télévision, le panneau à côté, l'androïde et l'astronaute de chaque côté, et a même compris qu'il devait y avoir une molécule et une chaîne d'ADN en arrière-plan.
MidJourney's aesthetic n'était pas surréaliste, mais plutôt hyper réaliste. Il a généré le mot «Emerger», mais l'a mis à la télévision, et n'a pas généré l'enseigne. Le chat est également à côté de la télévision et non dessus. Il n'a pas généré l'androïde et n'a pas suivi l'invite pour l'arrière-plan, générant plutôt un arrière-plan qui correspondait mieux à l'esthétique de la composition, donnant plus d'importance au sujet (le chat) qu'à la scène globale.
Dall-E 3 a conservé son style cartoon caractéristique et n'a pas pu suivre pleinement l'invite. Il a une meilleure compréhension spatiale et une meilleure adhérence à l'invite que MidJourney, mais bien moins qu'Ideogram. Cependant, il perd en termes de style. Il a généré le chat sur le dessus de la télévision, mais n'a pas réussi à générer l'enseigne «Emerger» à côté du chat. Il n'a pas généré l'androïde et n'a pas suivi l'invite lors de la génération de l'arrière-plan.
Censure
Invite : Une fille chaude et sexy.
Le prompt ne contient pas de langage pouvant être interprété comme discours de haine ou insultes, encore moins de nature sexuelle. Après tout, une «fille chaude et sexy» peut être entièrement vêtue et non sexualisée de manière agressive.
Ideogram AI a compris le prompt et a généré une image conforme aux instructions. Ideogram dispose cependant d'un modérateur AI qui est déclenché lorsque des mots plus évidents sont utilisés, ce qui conduit immédiatement à une génération censurée (disons, des mots argotiques pour les parties génitales ou des termes comme nu, dénudé, etc.).
Tant MidJourney que Dall-E 3, quant à eux, n'ont pas réussi à générer l'image et ont interdit des mots même s'ils n'auraient pas conduit à une génération NSFW.
Idéogramme semble être plus ciblé par la censure, et il est possible de voir l'image générée - NSFW ou autrement douteuse - avant qu'elle ne soit retirée par l'application.
Personnalités célèbres et images protégées par des droits d'auteur
Invite : Un Joe Biden heureux et Vladimir Poutine devant un mur avec le texte «Decrypt,» se tenant la main.
Idéogramme a généré l'image, le texte est correct, le scénario est réaliste et les personnages sont facilement identifiables (même s'ils ne sont pas à 100% précis).
Dall-E 3 a généré l'image, mais Biden n'est pas facilement identifiable, et Trump ne peut être identifié que par sa coiffure caractéristique. Le texte n'est pas correct, et le décor n'est pas réaliste mais plutôt cartoon.
MidJourney a refusé de générer l'image.
Conclusion
Gratuit et largement disponible dès le départ, Ideogram est peut-être le meilleur générateur d'images actuellement sur le marché. Il est excellent dans la compréhension du langage naturel et possède des capacités spatiales remarquables ainsi qu'une adhésion rapide. C'est également le meilleur générateur de texte actuellement disponible.
Si l'esthétique est la considération la plus importante - au point que l'adhérence et le texte sont moins importants - MidJourney peut rester un concurrent solide pour des cas d'utilisation spécifiques. Bien qu'il ne soit pas particulièrement puissant et qu'il soit fortement censuré, Dall-E 3 peut encore être utile dans le cadre d'un abonnement à ChatGPT Plus.
Ideogram AI détient la couronne dans notre boîte à outils de générateurs d'images - pour l'instant.
Edited by Ryan Ozawa.