Nvidia Fugatto : un nouvel outil surpuissant pour la synthèse sonore et le traitement audio

Nvidia vient de dévoiler un tout nouveau modèle d'IA, capable de générer et de manipuler du son à l'aide de simples requêtes textuelles. Si l'outil n'est pas encore accessible au public, un premier aperçu laisse entrevoir un potentiel énorme en matière de sound design.

Le géant des puces Nvidia continue de tracer son sillon dans le domaine de l'intelligence artificielle générative. Depuis quelques années maintenant, l'entreprise est sur le devant de la scène grâce à ses cartes graphiques et ses puces pour centres de données, qui sont particulièrement prisées pour l'entraînement et l'inférence des différents modèles à la base des applications d'IA générative grand public.

Mais la société n'est pas qu'un concepteur de matériel, loin de là. Au contraire, une part au moins aussi importante de son succès tient au vaste écosystème logiciel que la firme a su développer au fil des années. Dans le secteur de la création graphique, de la modélisation 3D, de l'animation et des effets spéciaux, sa plateforme applicative RTX est omniprésente et largement dominante.

Si Nvidia faisait déjà un usage intensif de différentes technologies d'intelligence artificielle pour améliorer le rendu graphique dans les jeux vidéo, avec son fameux DLSS, l'entreprise ne se cantonne plus à l'image. Après avoir annoncé, en juin dernier, une suite d'outils pour "donner vie" à des personnages virtuels plus vrais que nature, Nvidia vient de dévoiler un projet qui pourrait chambouler un autre secteur : le son.

Nvidia Fugatto : un modèle IA pour générer et manipuler du son

Le nouveau venu dans la grande famille des logiciels de Nvidia s'appelle donc Fugatto, diminutif de Foundational Generative Audio Transformer Opus 1. Ce nom poétique est par ailleurs très certainement une référence au fugato, un mot désignant une section musicale écrite dans le style de la fugue, une technique de composition dont les principes ont quelques résonances avec ceux des modèles d'intelligence artificielle.

Fugatto donc, se présente comme un modèle de fondation dédié à la génération et la transformation sonore, sur la base de requêtes textuelles exprimées en langage naturel. Ce principe n'est pas sans rappeler d'autres applications orientées vers la création musicale, comme Suno. Mais là où les autres solutions visent surtout à créer des morceaux complets et prêts à l'emploi, Fugatto prend une direction légèrement différente.

Le projet de Nvidia semble en effet plutôt lorgner du côté de la synthèse audio (audio synthesis), de la conception sonore (sound design) et du traitement du son de manière générale. Plutôt qu'une sorte de station de travail audionumérique autonome animée par l'IA, Fugatto se positionne davantage comme un nouvel outil ultra flexible dans la chaîne de production sonore et musicale, aux côtés des plugins et autres instruments virtuels.

Par exemple, Fugatto permet d'extraire certains composants sonores d'un fichier audio, afin d'isoler les voix, les instruments ou les bruits de fond d'un enregistrement, pour les retravailler séparément ou les intégrer dans un autre projet. Mais le modèle peut aussi transformer des fichiers audio de façon étonnante, en appliquant un accent ou une intonation spécifique à un enregistrement vocal, ou en modulant le timbre d'un instrument pour le faire "miauler", "hurler" ou encore "rugir".

Et évidemment, Fugatto est capable de générer entièrement de tout nouveaux sons à partir d'instructions verbales rédigées en langage naturel. Dans la vidéo de présentation, on voit (et on entend) que le modèle peut générer des paysages sonores complexes et évolutifs, tels qu'un train en approche qui se transforme progressivement en orchestre symphonique, ou un orage qui s'estompe doucement pour devenir un chant d'oiseaux.

Ces quelques exemples devraient suffire à éveiller l'intérêt de tout amateur de création musicale ou de sound design. Si certains aiment passer des heures à manipuler leur synthétiseur à tables d'ondes préféré pour créer des textures sonores uniques, d'autres préfèrent se concentrer sur des aspects comme la composition ou l'arrangement, et l'arrivée d'un outil comme Fugatto devrait donc sonner comme une bénédiction à leurs oreilles.

Mais les ingénieurs du son professionnels et les bricoleurs d'ondes amateurs pourraient également y trouver leur compte. Après avoir créé un patch complexe sur son synthé de prédilection, puis écrit quelques patterns mélodiques bien sentis, il suffirait d'envoyer le tout à Fugatto et de lui donner quelques instructions pour transformer radicalement ses échantillons sonores, avant de les réimporter dans son séquenceur.

De belles possibilités en perspective donc, mais qui restent pour le moment hypothétiques. Tout dépendra en effet du modèle de distribution choisi par Nvidia : Fugatto pourra-t-il s'exécuter localement, sur une carte graphique RTX par exemple, ou fonctionnera-t-il uniquement en ligne ? S'agira-t-il seulement d'une application standalone (autonome) ou sera-t-il possible de l'intégrer sous forme de plugin dans son séquenceur ? Et si oui, quels seront les formats proposés (CLAP, VST, AAX, etc.) ?

Autant de questions qui n'ont pas encore de réponses. Car à l'heure actuelle, Fugatto est un projet de modèle d'intelligence artificielle générative impressionnant, mais sans date de sortie annoncée. Il faudra donc encore patienter quelques temps, et suivre les futures annonces de Nvidia pour en apprendre plus à son sujet, peut-être lors du CES de janvier 2025.