Les transformers, une forme d’IA qui a dominé le domaine de la génération de texte et de vidéo, commencent à montrer leurs limites.
Ces modèles, utilisés par OpenAI pour Sora, et par d’autres comme Anthropic, Google et GPT-4, rencontrent des obstacles techniques, notamment en termes de puissance de calcul. Les transformers nécessitent une quantité significative d’énergie et d’infrastructure pour traiter et analyser de vastes quantités de données, ce qui rend leur utilisation de plus en plus coûteuse et difficile à soutenir.
Lire aussi :
- Quelles sont les principales améliorations de confidentialité introduites dans iOS 18 ?
- Le paradoxe des résultats financiers de l’IA : investir ou risquer l’oubli ?
L’innovation des modèles TTT
Une architecture prometteuse, appelée test-time training (TTT), a été récemment proposée par des chercheurs de Stanford, UC San Diego, UC Berkeley et Meta. Développée sur un an et demi, cette nouvelle approche pourrait révolutionner le domaine de l’IA générative. Contrairement aux transformers, les modèles TTT sont conçus pour traiter de grandes quantités de données sans consommer autant de puissance de calcul.
Les transformers utilisent un composant appelé état caché, qui stocke les informations traitées sous forme de longues listes de données. Cela peut devenir un goulot d’étranglement, car le modèle doit constamment parcourir cette table pour traiter des informations supplémentaires. Les modèles TTT, en revanche, remplacent cet état caché par un modèle d’apprentissage automatique interne, qui encode les données en variables représentatives appelées poids. Cela permet aux modèles TTT de maintenir une taille constante, quelle que soit la quantité de données traitées, ce qui les rend beaucoup plus performants.
Des performances prometteuses
Les modèles TTT pourraient traiter des milliards de données, allant des mots aux images, en passant par les enregistrements audio et les vidéos. Selon Yu Sun, post-doctorant à Stanford et co-contributeur à la recherche TTT, ce système peut produire des résultats sans la complexité computationnelle des transformers. Par exemple, alors que les grands modèles vidéo basés sur les transformers peuvent traiter seulement 10 secondes de vidéo, les modèles TTT visent à traiter des vidéos longues, similaires à l’expérience visuelle humaine.
Un avenir incertain mais excitant
Bien que les modèles TTT offrent un potentiel considérable, il est encore trop tôt pour dire s’ils remplaceront les transformers. Les chercheurs ont développé deux petits modèles pour l’étude, ce qui rend difficile la comparaison avec les grandes implémentations de transformers existantes. De plus, les modèles TTT ne sont pas encore une solution de remplacement direct pour les transformers.
Cependant, la recherche sur des alternatives comme les TTT et les modèles d’espace d’état (SSM) montre une reconnaissance croissante du besoin de nouvelles architectures. Si ces efforts réussissent, ils pourraient rendre l’IA générative plus accessible et plus efficace, transformant ainsi le paysage technologique.
En conclusion, les modèles TTT représentent une avancée prometteuse dans la recherche d’alternatives aux transformers. Leur capacité à traiter de grandes quantités de données de manière efficace pourrait révolutionner le domaine de l’IA générative, ouvrant la voie à des applications plus vastes et plus puissantes.