OpenAI a lancé lundi une nouvelle famille de modèles d’IA appelée GPT-4.1.
Cette nouvelle version, déclinée en GPT-4.1, GPT-4.1 mini et GPT-4.1 nano, est spécialement conçue pour exceller dans la programmation et le suivi d’instructions. Ces modèles multimodaux, disponibles via l’API d’OpenAI (mais pas sur ChatGPT), ont une fenêtre contextuelle de 1 million de tokens, ce qui leur permet de traiter environ 750 000 mots en une seule fois, soit plus long que “Guerre et Paix”.
Lire aussi :
- OpenAI contre-attaque Elon Musk : réussira-t-il à ralentir OpenAI dans sa quête pour dominer l’IA, ou la contre-attaque d’OpenAI marquera-t-elle un tournant décisif dans cette bataille ?
- Pourquoi le modèle Maverick de Meta, même dans sa version non modifiée, n’arrive-t-il pas à rivaliser avec les meilleurs modèles d’IA comme GPT-4o ou Gemini 1.5 Pro ?
Un modèle optimisé pour la programmation
Le lancement de GPT-4.1 intervient alors que des rivaux d’OpenAI, tels que Google et Anthropic, intensifient leurs efforts pour développer des modèles d’IA capables d’accomplir des tâches complexes en programmation. Le modèle GPT-4.1 a été optimisé en tenant compte des retours des développeurs pour améliorer plusieurs aspects cruciaux du développement logiciel, notamment la programmation front-end, la réduction des modifications superflues, la fiabilité des formats de réponse, et l’utilisation cohérente des outils.
Performances et efficacité
OpenAI a affirmé que le modèle GPT-4.1 surpasse ses précédentes versions GPT-4o et GPT-4o mini en termes de résultats sur des benchmarks de programmation, comme SWE-bench. Bien que GPT-4.1 mini et nano soient plus rapides et plus efficaces, cela se fait au détriment de la précision. GPT-4.1 nano, en particulier, est le modèle le plus rapide et le moins cher d’OpenAI à ce jour, coûtant seulement 0,10 $ par million de tokens d’entrée et 0,40 $ par million de tokens de sortie.
Limitations et défis
Malgré des scores impressionnants sur plusieurs benchmarks, GPT-4.1 n’est pas exempt de limitations. OpenAI reconnaît que ce modèle devient moins fiable à mesure que la quantité de tokens d’entrée augmente. Par exemple, dans un test interne d’OpenAI, la précision du modèle est tombée de 84% avec 8 000 tokens à seulement 50% avec 1 million de tokens. Cette baisse de performance est un problème majeur pour les utilisateurs qui cherchent à utiliser GPT-4.1 pour des tâches complexes.
OpenAI sous pression : ChatGPT accusé d’avoir généré des fausses accusations de meurtre en Norvège
Bien que GPT-4.1 affiche de bonnes performances globales, il reste encore des défis à relever pour OpenAI, notamment la gestion des bugs et des vulnérabilités de sécurité dans le code généré par ces modèles. Des études ont montré que de nombreux modèles de génération de code échouent à corriger les bugs et en introduisent parfois de nouveaux.