Meta a récemment lancé une implémentation ouverte de la fonctionnalité de génération de podcasts rendue célèbre par NotebookLM de Google.
Ce nouveau projet, nommé NotebookLlama, utilise les modèles Llama de Meta pour la majeure partie du traitement, offrant une solution innovante qui promet de transformer la manière dont les utilisateurs consomment le contenu textuel.
Lire aussi :
- Comment Smashing utilise-t-elle l’intelligence artificielle pour enrichir l’expérience de lecture des utilisateurs ?
- Comment la position de Perplexity pourrait-elle influencer les relations entre l’IA et les entreprises médiatiques à l’avenir ?
Fonctionnement de NotebookLlama : de la transcription à la génération vocale
NotebookLlama commence par créer une transcription à partir d’un fichier texte, qu’il s’agisse d’un article PDF ou d’un billet de blog. Une fois le texte converti, il ajoute des touches de dramatization ainsi que des interruptions pour simuler un échange naturel entre deux voix. La version générée est ensuite transformée en audio grâce à des modèles open-source de synthèse vocale. Cependant, d’après les retours, la qualité sonore n’atteint pas encore celle de NotebookLM : les voix paraissent robotiques, et il arrive souvent qu’elles se chevauchent, réduisant ainsi la fluidité de l’écoute.
Améliorations potentielles pour une meilleure qualité audio
Les chercheurs de Meta derrière NotebookLlama reconnaissent que le modèle actuel présente des limites. Sur la page GitHub du projet, ils expliquent que le modèle de synthèse vocale est la principale contrainte pour obtenir un rendu naturel. Ils mentionnent également qu’une méthode alternative consisterait à utiliser deux agents pour débattre d’un sujet et créer un schéma pour le podcast. Actuellement, NotebookLlama utilise un seul modèle pour structurer les sujets et écrire le plan, ce qui pourrait expliquer le manque de fluidité des échanges.
La difficulté persistante du problème de l’hallucination des IA
NotebookLlama n’est pas le premier projet à tenter de reproduire la fonctionnalité de génération de podcasts de NotebookLM. Bien que certains projets aient obtenu des résultats plus probants, aucun, y compris NotebookLM, n’a complètement surmonté le problème de l’hallucination des IA. Ce phénomène, courant dans l’IA générative, consiste à générer des informations erronées ou inventées. Ainsi, les podcasts générés par IA peuvent inclure des éléments fictifs, ce qui reste un obstacle majeur à une adoption généralisée pour des applications exigeant précision et fiabilité.
En conclusion, bien que NotebookLlama représente une avancée notable en matière de génération de podcasts par IA, il reste encore du chemin à parcourir avant de rivaliser avec les solutions de Google en termes de qualité et de précision. Les progrès futurs pourraient néanmoins faire de cet outil un incontournable pour transformer du contenu textuel en expérience audio immersive.