Google Labs expérimente un nouvel outil de génération d’images appelé Whisk, conçu pour repousser les limites de la créativité numérique.
Cette fonctionnalité innovante permet de combiner plusieurs images pour créer une œuvre unique en jouant sur le sujet, la scène et le style. Disponible en phase de test aux États-Unis, Whisk pourrait bien transformer la façon dont nous concevons les images générées par l’intelligence artificielle.
Lire aussi :
- Quelles sont les implications de la bataille juridique entre WordPress et WP Engine pour l’avenir des solutions d’hébergement basées sur WordPress ?
- Comment les technologies de génération vocale par IA peuvent-elles être régulées pour éviter leur utilisation dans des campagnes de désinformation ?
Whisk : comment ça fonctionne ?
L’outil repose sur Imagen 3, le modèle de génération d’images développé par Google. Contrairement aux générateurs classiques basés sur des descriptions textuelles, Whisk permet aux utilisateurs de partir directement d’images. Le processus commence par la sélection de trois éléments : une image représentant le sujet principal, une autre définissant le décor, et une troisième pour le style visuel. Par exemple, vous pouvez prendre une photo personnelle, choisir une scène futuriste comme arrière-plan et appliquer un style anime.
Une fois les images sélectionnées, Whisk génère automatiquement une légende détaillée pour guider le modèle dans la création. Les utilisateurs peuvent également enrichir le processus en ajoutant des descriptions textuelles précises, telles que : « Le sujet fait du vélo volant dans un paysage néon ».
Willow : la puce quantique de Google pourrait-elle prouver l’existence d’un multivers ?
Des résultats impressionnants mais perfectibles
Bien que prometteur, Whisk n’est pas exempt de limitations. Google reconnaît que l’outil se concentre sur des caractéristiques clés des images sélectionnées, ce qui peut entraîner des résultats inattendus. Par exemple, le sujet généré pourrait ne pas correspondre exactement à sa taille, sa corpulence ou même sa couleur de peau.
Pour pallier ces imprécisions, Whisk offre la possibilité de consulter et d’ajuster les légendes générées automatiquement. Cela permet aux utilisateurs d’affiner leurs créations pour se rapprocher de leur vision initiale.
Une disponibilité limitée mais prometteuse
Actuellement, Whisk est en phase expérimentale et accessible uniquement aux utilisateurs basés aux États-Unis via le site labs.google/whisk. Google n’a pas encore annoncé de date de déploiement global, mais cette technologie pourrait s’intégrer à d’autres services de l’entreprise si les tests s’avèrent concluants.
Comment Reddit Answers se distingue-t-il des autres outils d’IA comme ChatGPT et Google ?
Avec Whisk, Google continue de repousser les frontières de l’IA générative, en proposant des outils innovants qui mettent davantage l’accent sur l’interaction utilisateur. En combinant la puissance de l’intelligence artificielle et la créativité humaine, Whisk pourrait ouvrir de nouvelles perspectives pour les artistes, les designers, et même les amateurs de création visuelle.