La semaine dernière, DeepSeek, un laboratoire chinois, a dévoilé une version mise à jour de son modèle d’IA, le R1, qui excelle dans les tests de raisonnement mathématique et de codage.
Toutefois, l’entreprise n’a pas révélé les sources des données utilisées pour entraîner ce modèle, ce qui a alimenté des spéculations parmi les chercheurs. Certains pensent que des données provenant des modèles Gemini de Google ont pu être utilisées pour l’entraînement du modèle R1.
Lire aussi :
- Comment le modèle distillé DeepSeek-R1-0528-Qwen3-8B révolutionne-t-il l’accès aux IA de raisonnement avancé pour les petites structures et les chercheurs ?
- Pourquoi la Corée du Sud a-t-elle interdit le téléchargement de l’application DeepSeek sur son territoire ?
Des indices de similitude avec Gemini
Sam Paech, un développeur basé à Melbourne, a observé que certaines expressions et formulations du modèle R1 ressemblent fortement à celles du modèle Gemini 2.5 Pro de Google. Paech a suggéré que cela pourrait indiquer que DeepSeek a utilisé des données de Gemini pour entraîner son modèle. Bien que ces observations ne constituent pas une preuve formelle, elles soulèvent des questions sur l’origine des données du modèle de DeepSeek.
Un autre développeur, sous pseudonyme, ayant créé SpeechMap, un outil d’évaluation de la liberté d’expression des IA, a également remarqué des similitudes entre les raisonnements générés par le R1 et ceux produits par Gemini, renforçant ainsi l’hypothèse que des données de Google auraient pu être utilisées.
Nvidia peut-il maintenir sa domination sur le marché des puces IA face aux avancées de DeepSeek ?
Accusations précédentes de distillation
Ce n’est pas la première fois que DeepSeek est accusé d’utiliser des données provenant d’autres modèles d’IA. En décembre dernier, le modèle V3 de DeepSeek a été vu en train de s’identifier comme ChatGPT, suggérant qu’il aurait utilisé des données de ChatGPT pour son propre entraînement. En réponse, OpenAI a révélé des preuves suggérant que DeepSeek avait utilisé la distillation de données, une méthode permettant d’extraire des informations d’un modèle pour entraîner un autre modèle concurrent. Cette pratique va à l’encontre des conditions d’utilisation des services d’OpenAI.
Renforcement des mesures de sécurité
Pour contrer ce genre de pratiques, des entreprises comme OpenAI et Google ont renforcé leurs mesures de sécurité. OpenAI exige maintenant une vérification d’identité stricte pour accéder à ses modèles avancés. Google, quant à lui, a commencé à résumer les traces générées par ses modèles pour éviter leur utilisation dans l’entraînement de modèles concurrents.
Comment Meta compte-t-elle surpasser DeepSeek et maintenir son avance en intelligence artificielle ?
Bien que les preuves de l’utilisation des données de Gemini pour entraîner le modèle R1 de DeepSeek ne soient pas irréfutables, les similitudes observées suscitent des interrogations. Ce cas souligne les défis liés à la sécurité des données dans l’IA et met en lumière l’importance de protéger les données utilisées pour l’entraînement des modèles afin de garantir un développement éthique et sécurisé de l’intelligence artificielle.