Runware est une nouvelle startup qui fait son entrée sur le marché de l’inférence en intelligence artificielle, en se concentrant sur la rapidité d’exécution.
Grâce à son approche innovante, Runware permet de générer des images en moins d’une seconde, un exploit impressionnant qui démontre la puissance de sa technologie. Pour y parvenir, l’entreprise a choisi de ne pas réinventer la roue, mais plutôt de la faire tourner plus vite. Concrètement, Runware construit ses propres serveurs, en optimisant chaque composant pour maximiser la performance des modèles d’IA. Chaque serveur est équipé d’autant de GPU que possible, refroidis grâce à un système personnalisé, le tout logé dans des centres de données gérés directement par l’entreprise.
Lire aussi :
- Quelles alternatives aux VPN peuvent réellement renforcer la confidentialité de votre navigation sur internet ?
- Quelles alternatives aux VPN peuvent réellement renforcer la confidentialité de votre navigation sur internet ?
Une infrastructure optimisée pour des performances maximales
La stratégie de Runware repose sur une double optimisation, à la fois matérielle et logicielle. Au niveau matériel, l’accent est mis sur l’utilisation du maximum de GPU par serveur, tandis que le refroidissement personnalisé permet de maximiser l’efficacité énergétique et les performances. Au niveau logiciel, Runware travaille sur l’optimisation du BIOS et du système d’exploitation afin de réduire les délais de démarrage et d’accélérer l’exécution des tâches. L’entreprise a même développé ses propres algorithmes pour gérer et allouer efficacement les charges de travail d’inférence, ce qui lui permet d’offrir des performances supérieures à celles de ses concurrents qui utilisent des environnements virtualisés dans le cloud, souvent source de latence supplémentaire.
Mistral lance de nouveaux services et SDK pour permettre aux clients de peaufiner ses modèles
Un modèle économique axé sur la rapidité et l’efficacité
Contrairement à la plupart des entreprises qui louent leurs GPU en fonction du temps d’utilisation, Runware adopte une approche différente avec un modèle basé sur un coût par appel API. Cela signifie que les clients paient uniquement pour les appels qu’ils effectuent, ce qui les incite à optimiser leurs processus pour plus d’efficacité. Grâce à cette tarification, Runware se distingue par sa rapidité et son coût moindre par rapport aux autres fournisseurs. En utilisant des modèles d’IA populaires comme ceux de Flux et Stable Diffusion, l’entreprise parvient à offrir des résultats de qualité à une fraction du prix.
Vers une compatibilité multi-GPU pour une plus grande flexibilité
L’un des objectifs de Runware est de développer une compatibilité avec différents fournisseurs de GPU. Actuellement, les serveurs de la startup utilisent principalement des GPU Nvidia, mais elle travaille à une abstraction de la couche logicielle qui permettrait d’intégrer des GPU d’autres fournisseurs, tels qu’AMD. Cette compatibilité multi-GPU pourrait permettre à Runware de construire un cloud hybride, offrant ainsi une flexibilité accrue et des coûts réduits, tout en maintenant des performances élevées. En allouant dynamiquement des modèles dans la mémoire GPU, Runware peut maximiser l’utilisation des ressources et proposer des services à plusieurs clients sur une même unité de calcul, ce qui représente un véritable avantage concurrentiel.