La startup chinoise DeepSeek continue de faire parler d’elle dans la communauté de l’intelligence artificielle avec son modèle de raisonnement R1 mis à jour.
Cette semaine, l’attention se porte particulièrement sur la version complète de ce modèle, mais DeepSeek a aussi dévoilé une version allégée et distillée : le DeepSeek-R1-0528-Qwen3-8B. Ce modèle plus petit, basé sur la fondation Qwen3-8B lancée par Alibaba en mai, se distingue par ses performances remarquables, tout en étant beaucoup moins gourmand en ressources matérielles.
Lire aussi :
- Comment le nouveau mode vocal de Claude transforme-t-il l’expérience utilisateur des chatbots basés sur l’IA ?
- Quand pourra-t-on utiliser la connexion « Se connecter avec ChatGPT » pour s’authentifier sur nos applications préférées ?
Performances et compétitivité du modèle distillé
Le DeepSeek-R1-0528-Qwen3-8B surpasse plusieurs modèles de taille similaire lors de benchmarks complexes. Par exemple, il fait mieux que Gemini 2.5 Flash de Google sur le test AIME 2025, une série de questions mathématiques de haut niveau. Il rivalise aussi presque avec Phi 4 reasoning plus de Microsoft sur le test HMMT, un autre benchmark exigeant en compétences mathématiques. Ces résultats impressionnants montrent que ce modèle distillé, bien que plus compact, conserve une puissance de calcul et une capacité de raisonnement proches des meilleurs modèles du marché.
Nvidia peut-il maintenir sa domination sur le marché des puces IA face aux avancées de DeepSeek ?
Avantages du modèle distillé pour les développeurs et l’industrie
Les modèles distillés comme DeepSeek-R1-0528-Qwen3-8B sont généralement moins performants que leurs versions complètes, mais ils ont l’avantage d’être beaucoup moins coûteux à exécuter. Là où la version complète de R1 nécessite une douzaine de GPU 80GB pour fonctionner, le modèle distillé peut tourner sur un seul GPU, avec des configurations entre 40 et 80GB de RAM (comme la Nvidia H100). Cela ouvre la porte à une utilisation beaucoup plus accessible, notamment pour les chercheurs académiques et les petites entreprises qui veulent intégrer des capacités avancées de raisonnement AI sans disposer d’une infrastructure massive.
Disponibilité et utilisation commerciale
DeepSeek a entraîné son modèle distillé en affinant Qwen3-8B grâce aux textes générés par le modèle R1 complet. Ce travail de fine-tuning a permis de conserver une qualité élevée tout en réduisant drastiquement les besoins en ressources. Le DeepSeek-R1-0528-Qwen3-8B est distribué sous licence MIT permissive, ce qui signifie qu’il peut être utilisé librement dans des projets commerciaux. Plusieurs plateformes, dont LM Studio, proposent déjà ce modèle via API, facilitant ainsi son intégration dans divers projets industriels ou de recherche.
En résumé, DeepSeek franchit une nouvelle étape importante en proposant un modèle de raisonnement puissant, à la fois accessible et performant. Cette innovation pourrait accélérer l’adoption de l’intelligence artificielle avancée dans de nombreux secteurs, en abaissant les barrières techniques et financières.