La société chinoise DeepSeek a présenté ce lundi un nouveau modèle expérimental baptisé V3.2-exp, conçu pour réduire de façon drastique les coûts d’inférence lors des opérations en contexte long.
Publié sur Hugging Face et accompagné d’un article académique disponible sur GitHub, ce modèle open-weight promet des avancées notables pour les chercheurs et développeurs en quête de solutions plus économiques.
Lire aussi :
- L’IA de Maximor peut-elle vraiment mettre fin à la dépendance d’Excel en comptabilité ?
- Comment Paid veut-elle révolutionner la facturation des agents IA avec un modèle basé sur les résultats ?
Une architecture optimisée grâce à la Sparse Attention
La principale innovation de ce modèle repose sur la technologie DeepSeek Sparse Attention. Le fonctionnement repose sur deux modules complémentaires : un « lightning indexer », qui identifie et hiérarchise les extraits les plus pertinents dans une large fenêtre de contexte, et un système de sélection fine de tokens, qui choisit ensuite les éléments essentiels à intégrer dans la fenêtre d’attention limitée du modèle.
En combinant ces deux étapes, le système parvient à traiter de longs passages de texte sans mobiliser des ressources serveur démesurées. Résultat : selon les tests préliminaires, le coût d’un appel API en contexte long pourrait être réduit de près de 50 %, une avancée considérable pour les entreprises et chercheurs qui manipulent de grands volumes de données.
Une réponse au défi des coûts d’inférence
Dans l’univers de l’intelligence artificielle, les coûts d’inférence — c’est-à-dire l’énergie et les ressources nécessaires pour exécuter un modèle pré-entraîné — constituent l’un des principaux freins à une adoption massive. Alors que les investissements se concentrent souvent sur l’entraînement initial, l’optimisation de l’inférence est cruciale pour rendre l’IA plus accessible et scalable.
DeepSeek, en s’attaquant directement à ce problème, démontre que l’architecture des transformeurs peut encore être améliorée. Si les résultats doivent être confirmés par des tests indépendants, le fait que le modèle soit librement accessible sur Hugging Face accélérera sans doute les évaluations et les comparaisons avec les standards actuels.
DeepSeek, un acteur atypique dans la course mondiale à l’IA
Basée en Chine, DeepSeek intrigue depuis plusieurs mois par ses choix technologiques. Au début de l’année, son modèle R1, entraîné principalement via le renforcement, avait fait sensation en affichant un coût de formation bien inférieur à celui de ses concurrents américains. Bien que cette approche n’ait pas provoqué la révolution attendue, elle a montré la capacité de DeepSeek à innover hors des sentiers battus.
Nvidia peut-il maintenir sa domination sur le marché des puces IA face aux avancées de DeepSeek ?
Avec V3.2-exp et sa sparse attention, la société revient sur le devant de la scène, non pas avec une promesse de bouleversement, mais avec une innovation pragmatique susceptible d’inspirer d’autres acteurs. Si les performances se confirment, cette méthode pourrait offrir aux fournisseurs d’IA occidentaux une piste pour réduire leurs propres coûts d’exploitation, un enjeu vital dans un secteur où chaque cycle de calcul compte.