OpenAI a dévoilé une importante mise à jour des capacités visuelles de ChatGPT lors d’un livestream animé par son PDG, Sam Altman.
Pour la première fois depuis plus d’un an, l’assistant conversationnel pourra désormais générer et modifier des images nativement grâce au modèle GPT-4o.
Lire aussi :
- OpenAI rend son assistant vocal plus humain : Ces améliorations suffiront-elles à faire de ChatGPT la référence face à Alexa et aux nouveaux assistants IA comme Sesame ?
- La startup allemande n8n lève 60 millions de dollars pour révolutionner l’automatisation des workflows avec l’IA générative
GPT-4o : au-delà du texte, une nouvelle ère visuelle
Jusqu’ici, même si GPT-4o alimentait ChatGPT, ses capacités restaient limitées à la génération de texte. Avec cette mise à jour, le modèle est désormais capable de créer et d’éditer des images, y compris des photographies. Il devient aussi possible d’appliquer des modifications ciblées, comme l’ajout ou le remplacement d’éléments en arrière-plan ou au premier plan, voire la transformation d’images contenant des visages humains.
Disponible dès maintenant pour les abonnés à l’offre Pro à 200 dollars par mois, cette fonctionnalité sera bientôt accessible aux utilisateurs du plan Plus, aux utilisateurs gratuits ainsi qu’aux développeurs via l’API d’OpenAI.
Plus précis, plus détaillé : GPT-4o détrône DALL·E 3
Le nouveau générateur d’images de GPT-4o met davantage de temps à produire ses visuels que DALL·E 3, son prédécesseur, mais le résultat est plus précis et plus fidèle aux consignes. Cette amélioration est rendue possible par un entraînement fondé à la fois sur des données publiques et sur des contenus partenaires, comme ceux de Shutterstock.
OpenAI assure respecter les droits des artistes, en interdisant notamment la reproduction directe du style de créateurs vivants. L’entreprise a mis en place une politique permettant aux artistes de demander la suppression de leurs œuvres de ses ensembles de données d’entraînement. De plus, les sites peuvent empêcher le scraping de leurs contenus grâce à une exclusion explicite.
Une concurrence féroce et des enjeux éthiques
Cette avancée survient peu après que Google a lancé des capacités similaires dans son modèle Gemini 2.0 Flash. Ce dernier a suscité la controverse en raison d’un manque de garde-fous, permettant notamment de supprimer des filigranes ou de générer des images de personnages sous copyright.
Avec GPT-4o, OpenAI entend répondre aux attentes croissantes en matière de personnalisation et de qualité tout en évitant les dérives. Toutefois, à l’heure où les intelligences artificielles sont capables de générer des contenus indiscernables de ceux produits par l’homme, la question des droits d’auteur, de la propriété intellectuelle et de l’éthique reste plus brûlante que jamais.