La startup en intelligence artificielle Stability AI a lancé Stable Audio Open Small, un modèle de génération audio stéréo qui, selon l’entreprise, est le plus rapide du marché et suffisamment performant pour fonctionner directement sur des smartphones.
Ce modèle représente une avancée significative pour les applications mobiles d’IA audio, permettant aux utilisateurs de générer des sons et des échantillons audio sans connexion Internet.
Lire aussi :
- L’essor des modèles d’IA de raisonnement pourrait ralentir bientôt, selon une analyse
- AllTrails dévoile son abonnement Peak avec des fonctionnalités IA : itinéraires intelligents, prévisions en temps réel et identification de la flore
Une collaboration avec Arm pour une efficacité maximale
Stable Audio Open Small est le fruit d’une collaboration entre Stability AI et Arm, un fabricant de puces qui produit des processeurs pour de nombreux appareils mobiles, notamment des téléphones et des tablettes. Contrairement à d’autres applications audio IA comme Suno et Udio, qui dépendent du cloud pour le traitement des données, Stable Audio Open Small fonctionne entièrement sur le périphérique, offrant ainsi des capacités hors ligne. Ce modèle réduit les délais de génération de contenu et est conçu pour être plus rapide et plus économe en énergie, ce qui est crucial pour les appareils mobiles.
Le modèle, qui contient 341 millions de paramètres, est optimisé pour fonctionner sur des processeurs Arm, permettant des performances accrues sur des appareils à faible consommation d’énergie. Il est particulièrement adapté à la génération de courts échantillons audio et d’effets sonores, comme des riffs de batterie et des instruments.
Une approche éthique pour l’entraînement du modèle
Stability AI a pris des mesures pour éviter les risques de violation des droits d’auteur dans la création de son modèle audio. Le jeu de données utilisé pour entraîner Stable Audio Open Small est constitué uniquement de chansons provenant de bibliothèques audio sans droits d’auteur, telles que Free Music Archive et Freesound. Cette démarche contraste avec celle de certains modèles concurrents comme Suno et Udio, qui incluraient des contenus protégés par des droits d’auteur, posant des risques potentiels en matière de propriété intellectuelle.
Cette approche a pour objectif de garantir une utilisation éthique du modèle tout en permettant une plus grande liberté d’utilisation pour les chercheurs et les développeurs, sans craindre des poursuites pour violation de droits d’auteur.
Des limitations à prendre en compte
Bien que Stable Audio Open Small offre des performances intéressantes, le modèle n’est pas exempt de limitations. Il prend uniquement en charge les entrées en anglais, ce qui restreint son usage pour les utilisateurs non anglophones. En outre, Stability AI précise dans sa documentation que le modèle n’est pas adapté pour générer des vocalises réalistes ou des chansons de haute qualité. Il est également moins performant lorsqu’il s’agit de styles musicaux non occidentaux, en raison de biais dans ses données d’entraînement.
Malgré ces limitations, Stable Audio Open Small offre une solution rapide et pratique pour générer des effets sonores et des échantillons audio, particulièrement utile pour les créateurs de contenu, les chercheurs et les petites entreprises.