Meta a récemment annoncé la sortie de Llama 3.1 405B, son plus grand modèle d’intelligence artificielle open source à ce jour.
Avec 405 milliards de paramètres, ce modèle se positionne comme l’un des plus puissants sur le marché actuel, visant à rivaliser avec des modèles propriétaires tels que GPT-4o d’OpenAI et Claude 3.5 Sonnet d’Anthropic.
Lire aussi :
- Comment les nouvelles fonctionnalités d’Anthropic aident-elles les développeurs à améliorer leurs applications IA ?
- Comment les nouvelles fonctionnalités AI de Gemini et les derniers appareils Pixel transformeront-ils l’expérience utilisateur sur les dispositifs Google ?
Une puissance inégalée
Llama 3.1 405B a été développé à l’aide de 16 000 GPU Nvidia H100, utilisant des techniques de formation et de développement modernes qui améliorent considérablement ses capacités. Les paramètres, qui correspondent en gros aux compétences en résolution de problèmes du modèle, permettent à Llama 3.1 405B de traiter des tâches variées telles que la codification, les questions mathématiques de base et le résumé de documents en huit langues. Bien qu’il soit principalement axé sur le texte, ce modèle ouvre la voie à des applications plus larges et plus diversifiées.
Des données de formation raffinées
Pour entraîner Llama 3.1 405B, Meta a utilisé un ensemble de données de 15 trillions de tokens, correspondant à environ 750 milliards de mots. Cet ensemble de données n’est pas totalement nouveau, mais il a été amélioré par des pipelines de curation de données plus rigoureux et des approches de filtrage de données. Meta a également utilisé des données synthétiques, générées par d’autres modèles d’IA, pour affiner Llama 3.1 405B. Bien que certains experts soulignent que les données synthétiques peuvent exacerber les biais du modèle, Meta assure avoir soigneusement équilibré ces données pour garantir une formation optimale.
Avantages et perspectives
L’une des caractéristiques les plus marquantes de Llama 3.1 405B est sa fenêtre contextuelle étendue à 128 000 tokens, soit la longueur d’un livre de 50 pages. Cette capacité permet au modèle de résumer des textes plus longs et de mieux suivre les conversations dans les chatbots. De plus, Meta a annoncé que Llama 3.1 405B sera disponible en téléchargement et utilisable sur des plateformes cloud comme AWS, Azure et Google Cloud, rendant ainsi cet outil accessible à un large éventail d’utilisateurs.
Cependant, la mise en œuvre de ce modèle massif nécessite un matériel performant. Meta recommande au moins un nœud de serveur pour exécuter efficacement Llama 3.1 405B. Pour les applications plus générales, Meta propose également des modèles plus petits et plus accessibles, tels que Llama 3.1 8B et Llama 3.1 70B, qui bénéficient également de la grande fenêtre contextuelle de 128 000 tokens.
En conclusion, Llama 3.1 405B représente une avancée significative dans le domaine des modèles d’IA open source. Avec son ensemble de paramètres impressionnant et ses capacités améliorées, il promet de transformer la manière dont les entreprises et les développeurs utilisent l’intelligence artificielle pour résoudre des problèmes complexes.