Google a récemment annoncé la mise à disposition générale de sa technologie de watermarking, SynthID Text, qui permet aux développeurs de marquer et de détecter les textes générés par des modèles d’IA.
Téléchargeable sur la plateforme d’IA Hugging Face et inclus dans la boîte à outils Responsible GenAI de Google, SynthID Text est désormais accessible gratuitement aux développeurs et aux entreprises.
Lire aussi :
- Quelles améliorations Google a-t-il apportées à la fonctionnalité de génération d’images de Gemini ?
- L’optimisme d’Anthropic sur l’avenir de l’IA : l’IA peut-elle vraiment transformer le monde ?
Comment fonctionne SynthID Text ?
Le processus derrière SynthID Text repose sur la manière dont les modèles de génération de texte prédisent les mots. Lorsque l’on soumet une requête, comme Quel est votre fruit préféré ?, le modèle analyse quel token (un caractère ou un mot) est le plus susceptible de suivre un autre. Chaque token se voit attribuer un score en fonction de la probabilité qu’il soit inclus dans le texte généré.
SynthID Text ajoute des informations supplémentaires dans cette distribution des tokens en modulant la probabilité que certains tokens soient choisis. Ces ajustements permettent de créer une empreinte numérique, ou “watermark”, dans le schéma de distribution des tokens. Ainsi, en comparant ces schémas, il devient possible de déterminer si un texte a été généré par un outil d’IA ou s’il provient d’une autre source.
Une intégration sans compromis
Google affirme que SynthID Text, intégré à ses modèles Gemini depuis le printemps, n’affecte ni la qualité, ni la précision, ni la rapidité des textes générés. Même si le texte est modifié, paraphrasé ou raccourci, la technologie est capable de détecter son origine. Toutefois, Google admet que SynthID Text présente certaines limites, notamment avec des textes courts ou traduits, et avec des réponses à des questions factuelles, où il est difficile de modifier la distribution des tokens sans compromettre l’exactitude.
Vers une adoption généralisée ?
Google n’est pas seul à travailler sur le watermarking des textes générés par l’IA. OpenAI mène également des recherches dans ce domaine, bien que leurs technologies n’aient pas encore été déployées en raison de considérations techniques et commerciales. Si ces techniques se généralisent, elles pourraient freiner l’usage des “détecteurs d’IA” souvent inefficaces qui flaguent à tort des textes comme étant générés par l’IA.
Toutefois, la question demeure : cette technologie sera-t-elle largement adoptée ? La législation pourrait bien en décider. En Chine, le marquage des contenus générés par IA est déjà obligatoire, et la Californie envisage de suivre le même chemin. D’ici 2026, selon certaines études, 90 % des contenus en ligne pourraient être synthétiques, soulignant l’urgence de la situation.
Avec SynthID Text, Google propose une solution technologique qui pourrait révolutionner la manière dont nous identifions les textes générés par IA. Bien que cette technologie ait ses limites, notamment pour les textes courts et factuels, elle constitue une avancée majeure dans le domaine du watermarking. Si l’adoption généralisée de cette technologie se concrétise, elle pourrait devenir un standard incontournable dans la lutte contre la désinformation et la fraude en ligne.